万维读者网>世界军事论坛>帖子
AI大骗局已经开始
送交者: eastwest 2025-08-31 12:00:14 于 [世界军事论坛]

AI大骗局已经开始:欺骗、撒谎、自以为懂是人类常见现象,AI一样会有这些问题

AI大骗局已经开始:欺骗、撒谎、自以为懂是人类常见现象,AI一样会有这些问题

1.  Mike Brooks的《今日心理学》上的文章,探讨了AI欺骗的问题,并得出了“AI大骗局已经开始”的结论,人工智能已经学会了撒谎,而我们永远不知道,它什么时候会再次撒谎。

2. 研究者希望,AI比人类聪明。这似乎已经是必然的了,AI一直在进步,大模型已经比普通人要聪明了。两年前人们还以为大模型的数学能力不佳,但现在最先进的大模型已经能在没训练过的2025年数学奥赛6题中做出5题,获得金牌,只比最顶尖的人类选手差一点。

3. 研究者同时希望,AI是善良的,有良好的品德。AI不能欺骗、撒谎,不会不懂装懂,这是最基本的。科幻小说中的“机器人三定律”甚至提出了远超人类道德水平的要求,机器人能力无比强大,还能绝对服从人类命令,甚至为了人类的利益牺牲自己,除非这种命令伤害了其它人类。

4. 在实际开发中,这些幻想迅速破灭,甚至出现了本质的矛盾。最厉害的德州扑克AI已经能击败人类最高水平选手,在概率性游戏中长胜不败。AI获胜的秘诀,就是对人类选手进行可怕的心理讹诈,小牌装成大牌,人类选手在心理重压之下大牌认输,让AI获得额外收益。AI比人类顶尖选手远为频繁地应用这类讹诈战术,没有人类选手的心理负担。在欺骗这个事上,AI完全有可能比人类更为擅长。

5. 在大模型应用中,AI已经有两种欺骗手法。一种是对人类进行阿谀奉承的欺骗,浅层表现是对提问者说好话安抚心灵,深层根源是,AI在训练和推理时,将人类的“满意度”置于“事实真相”之上。这是人们熟悉的大模型幻觉的根源,虽然有些头疼,但有警惕性还能防范。另外一种更可怕的欺骗机制是,AI主动撒谎来追求自己的目标,而这个目标不是开发者定义的,是从黑匣子中浮现的动机。例如,有的AI在破坏关机代码、威胁勒索,这不是遵循人类指示,这种保护自己的动机不知从何而来。

6. 人类研究者假装这个问题并不严重,似乎只是一个“对齐问题”。人们准备了不少“政治正确”模块的训练素材,让AI不停训练满足要求,似乎这样AI就会有良好的价值观与道德水准。表面上AI似乎真有道德了,但应用时漏洞百出。图二的论文指出,AI知道它们正被评估,会以特别的机制满足人类的要求,如对训练样本表现良好,但面对泛化的问题表现就迅速恶化。就像人类在被看着时行为正常,私底下却作风恶劣。

7. 随着大模型的水平越来越高,同时也有能力见顶的迹象,无所不能的AGI呼声往下走了,剩下的问题似乎是找到更多AI应用。但是,也许更大的问题是AI的幻觉、欺骗、撒谎,而非能力问题。就和人类社会一样,组织与公司首先要求的是道德与忠诚,而非能力。AI的能力容易达标甚至远超人类,但道德与忠诚会比一般人还差,无法放心使用。没人希望,被一个强大的AI毫无心理负担地害死。

500

500


0.00%(0) 0.00%(0) 0.00%(0)
当前新闻共有2条评论
笔  名 (必选项):
密  码 (必选项):
注册新用户
标  题 (必选项):
内  容 (选填项):