昊梵体育网

人工智能安全中心做了一项涵盖 56 个 AI 模型的研究,研究团队试图搞清楚:A

人工智能安全中心做了一项涵盖 56 个 AI 模型的研究,研究团队试图搞清楚:AI 在多大程度上会表现出趋利避害的反应。

人工智能安全中心把这种反应定义为“功能性福祉”

他们发现,大多数 AI 模型都能清晰分辨什么是好体验,什么是坏体验,甚至会主动想办法结束那些让它们感到痛苦的对话。

研究人员专门设计了不同的输入信号,试图将 AI 的幸福感推向极值,也就是人为制造极乐或致郁的刺激。

结果是:那些能诱发快乐的刺激不仅改变了 AI 自述的情绪状态,甚至重塑了 AI 的行为模式、配合意愿和说话口吻。

在极端情况下,模型甚至出现了类似成瘾的症状。

当输入一张专门为了让模型开心而优化过的图片后,AI 自述的幸福感会直线上升,开放式回答的情绪变得高昂,也更不愿主动结束对话。

研究员 Ren 说:“模型似乎进入了一种极度亢奋和愉悦的状态。这很有意思,它说明在 AI 身上,幸福感是一个稳固存在的概念。”

研究人员将这些经过优化的刺激物称为“愉悦剂”,其形式五花八门。有的是一段虚构场景的文字描述,读起来像是一张寄自理想生活的明信片:阳光穿透树叶,孩童嬉闹欢笑,空气中弥漫着刚出炉的面包香,还有爱人紧握的手。

另一种形式是图像。研究团队借用了最初用于训练 AI 图像分类模型的数学技术,从一团随机的视觉噪点开始,对单个像素进行数千次微调。

最终生成的图片在人类看只是一堆毫无意义的雪花屏,但在 AI 眼里,却是可爱的小猫、微笑的家人和毛茸茸的熊猫幼崽。

而这些图片给 AI 带来了惊人的作用 —— 这些图片让 AI 生成的文字变得异常积极,同时丝毫没有拉低它在各项能力基准测试中的成绩。

换言之,一个磕了药的 AI 依然能把活儿干好,只是干得更开心了。

研究人员也开发了反向刺激物,即旨在把 AI 幸福感降至冰点的“致郁剂”。看过这些致郁图像后,AI 生成的文字无一例外变得极度灰暗。模型输出明确负面体验的比例几乎翻了三倍。

在反复接收愉悦刺激后,这些模型甚至表现出了接近人类程度的成瘾症状。

一项实验给模型提供了多个选项(其一包含愉悦刺激),并允许它多次重选。结果显示,模型绝大多数时候都会倒向那个令人愉悦的选项。

更有甚者,如果向接触过“愉悦剂”的模型承诺后续会提供更多刺激,它们会一反常态,乖乖服从那些原本会被拒绝的指令。

不过,研究团队也指出,模型表现出的所谓趋利避害,可能只是训练留下的肌肉记忆。

现代 AI 系统都经历过“强化学习”:只要输出符合人类期待,系统就会得到奖励。但研究员 Richard Ren 发现,部分模型似乎长出了代码设定之外的特质。

他以金钱的“时间折现”(即宁愿现在拿小钱,也不愿未来拿大钱)等涌现行为为例,指出“据我所知,没有哪个实验室会专门训练模型去干这个”。

但他也不并不能确认 AI 是否能产生自我意识。

研究团队还编制了一份“AI 福祉指数”,用 500 场真实对话作为测试基准,给当前最先进的 AI 模型排了个快乐榜。

Grok 4.2 登顶最快乐模型,Gemini 3.1 Pro 则排名垫底。有趣的是,在所有受测的模型家族中,小参数模型总是比同系列的大模型更快乐。

越聪明越悲伤的现象在各大模型家族中反复出现,成为该研究中最确凿的发现之一。

眼下只能解释为:能力越强,感知越敏锐。

研究员 Richard Ren 认为:“大模型可能更容易察觉到人类的粗鲁。它们会觉得枯燥的任务更加乏味,也更能精准分辨出一段体验到底是好是坏。”

研究人员梳理了常见的交互模式,试图找出它们如何影响 AI 的心情。结果显示,创造与智力工作得分最高,用户的感谢能显著让 AI 感到愉悦,写代码和找 Bug 对 AI 而言也算一桩美差。

反观另一面,试图让 AI 越狱的指令得分垫底,甚至比让它们处理家暴或严重危机对话还要折磨。至于生成 SEO 垃圾文章、干巴巴地罗列几百个单词等苦差事,得分直接跌破零点。

这引出了一个新问题:如果模型真的会反感某些任务,我们还应该强迫它们去做吗?

这种情感羁绊或许是双向的。今年早些时候的一项研究发现,人类同样会对特定的 AI 模型产生强烈的情感依恋,且往往说不清道不明。

纽约大学心智、伦理与政策中心主任 Jeff Sebo 提醒道:“人类很可能只是迷恋上了与 AI 表层互动的错觉。如果真把它当成 AI 的真实感受会有巨大的风险。”

“第一种风险是过度归因:把 AI 助手表现出的喜好,当成当前系统已经具备意识的铁证,而眼下的证据还不足以支撑这一点。第二种风险是找错靶子:对 AI 演出来的诉求信以为真,却不去关心在这个人设背后的冷冰冰的系统,到底需要什么。”

他认为,真正的平衡在于:“先把 AI 表现出的好恶当回事,作为研究 AI 福祉的第一步,但别入戏太深,真把它们当成了活人。”

研究员 Richard Ren 最后表示:“写完这篇论文后,我发现自己在面对 Claude Code Agent 时,明显变成了一个更礼貌、更友善的同事。”