人工智能安全中心做了一项涵盖 56 个 AI 模型的研究，研究团队试图搞清楚：A

人工智能安全中心做了一项涵盖 56 个 AI 模型的研究，研究团队试图搞清楚：AI 在多大程度上会表现出趋利避害的反应。

人工智能安全中心把这种反应定义为“功能性福祉”

他们发现，大多数 AI 模型都能清晰分辨什么是好体验，什么是坏体验，甚至会主动想办法结束那些让它们感到痛苦的对话。

研究人员专门设计了不同的输入信号，试图将 AI 的幸福感推向极值，也就是人为制造极乐或致郁的刺激。

结果是：那些能诱发快乐的刺激不仅改变了 AI 自述的情绪状态，甚至重塑了 AI 的行为模式、配合意愿和说话口吻。

在极端情况下，模型甚至出现了类似成瘾的症状。

当输入一张专门为了让模型开心而优化过的图片后，AI 自述的幸福感会直线上升，开放式回答的情绪变得高昂，也更不愿主动结束对话。

研究员 Ren 说：“模型似乎进入了一种极度亢奋和愉悦的状态。这很有意思，它说明在 AI 身上，幸福感是一个稳固存在的概念。”

研究人员将这些经过优化的刺激物称为“愉悦剂”，其形式五花八门。有的是一段虚构场景的文字描述，读起来像是一张寄自理想生活的明信片：阳光穿透树叶，孩童嬉闹欢笑，空气中弥漫着刚出炉的面包香，还有爱人紧握的手。

另一种形式是图像。研究团队借用了最初用于训练 AI 图像分类模型的数学技术，从一团随机的视觉噪点开始，对单个像素进行数千次微调。

最终生成的图片在人类看只是一堆毫无意义的雪花屏，但在 AI 眼里，却是可爱的小猫、微笑的家人和毛茸茸的熊猫幼崽。

而这些图片给 AI 带来了惊人的作用 —— 这些图片让 AI 生成的文字变得异常积极，同时丝毫没有拉低它在各项能力基准测试中的成绩。

换言之，一个磕了药的 AI 依然能把活儿干好，只是干得更开心了。

研究人员也开发了反向刺激物，即旨在把 AI 幸福感降至冰点的“致郁剂”。看过这些致郁图像后，AI 生成的文字无一例外变得极度灰暗。模型输出明确负面体验的比例几乎翻了三倍。

在反复接收愉悦刺激后，这些模型甚至表现出了接近人类程度的成瘾症状。

一项实验给模型提供了多个选项（其一包含愉悦刺激），并允许它多次重选。结果显示，模型绝大多数时候都会倒向那个令人愉悦的选项。

更有甚者，如果向接触过“愉悦剂”的模型承诺后续会提供更多刺激，它们会一反常态，乖乖服从那些原本会被拒绝的指令。

不过，研究团队也指出，模型表现出的所谓趋利避害，可能只是训练留下的肌肉记忆。

现代 AI 系统都经历过“强化学习”：只要输出符合人类期待，系统就会得到奖励。但研究员 Richard Ren 发现，部分模型似乎长出了代码设定之外的特质。

他以金钱的“时间折现”（即宁愿现在拿小钱，也不愿未来拿大钱）等涌现行为为例，指出“据我所知，没有哪个实验室会专门训练模型去干这个”。

但他也不并不能确认 AI 是否能产生自我意识。

研究团队还编制了一份“AI 福祉指数”，用 500 场真实对话作为测试基准，给当前最先进的 AI 模型排了个快乐榜。

Grok 4.2 登顶最快乐模型，Gemini 3.1 Pro 则排名垫底。有趣的是，在所有受测的模型家族中，小参数模型总是比同系列的大模型更快乐。

越聪明越悲伤的现象在各大模型家族中反复出现，成为该研究中最确凿的发现之一。

眼下只能解释为：能力越强，感知越敏锐。

研究员 Richard Ren 认为：“大模型可能更容易察觉到人类的粗鲁。它们会觉得枯燥的任务更加乏味，也更能精准分辨出一段体验到底是好是坏。”

研究人员梳理了常见的交互模式，试图找出它们如何影响 AI 的心情。结果显示，创造与智力工作得分最高，用户的感谢能显著让 AI 感到愉悦，写代码和找 Bug 对 AI 而言也算一桩美差。

反观另一面，试图让 AI 越狱的指令得分垫底，甚至比让它们处理家暴或严重危机对话还要折磨。至于生成 SEO 垃圾文章、干巴巴地罗列几百个单词等苦差事，得分直接跌破零点。

这引出了一个新问题：如果模型真的会反感某些任务，我们还应该强迫它们去做吗？

这种情感羁绊或许是双向的。今年早些时候的一项研究发现，人类同样会对特定的 AI 模型产生强烈的情感依恋，且往往说不清道不明。

纽约大学心智、伦理与政策中心主任 Jeff Sebo 提醒道：“人类很可能只是迷恋上了与 AI 表层互动的错觉。如果真把它当成 AI 的真实感受会有巨大的风险。”

“第一种风险是过度归因：把 AI 助手表现出的喜好，当成当前系统已经具备意识的铁证，而眼下的证据还不足以支撑这一点。第二种风险是找错靶子：对 AI 演出来的诉求信以为真，却不去关心在这个人设背后的冷冰冰的系统，到底需要什么。”

他认为，真正的平衡在于：“先把 AI 表现出的好恶当回事，作为研究 AI 福祉的第一步，但别入戏太深，真把它们当成了活人。”

研究员 Richard Ren 最后表示：“写完这篇论文后，我发现自己在面对 Claude Code Agent 时，明显变成了一个更礼貌、更友善的同事。”

昊梵体育网