美国斯坦福大学刚刚发布了一项让人极其不安的研究。
大语言模型的推理能力,可能只是一层一戳就破的窗户纸。
论文系统性地拆解了LLM在推理上的全面溃败。
为什么模型在排行榜上接近满分,但在实际应用中却漏洞百出?
核心结论只有一个:LLM并不是在推理,而是在伪造逻辑。
研究人员发现了一种被称为“不忠实推理”的现象。
模型能给出正确的答案,但背后的推导过程完全是编造的。
这就像一个作弊的学生,通过偷看答案反推了一个看似合理的解题步骤。
底层逻辑是什么?
现有架构缺乏物理世界的“具身”感知。
这意味着模型对重力、空间、因果等基本物理常识的理解几乎为零。
哪怕只是改动提示词里的一个无关紧要的虚词,模型的答案就会瞬间崩塌。
这种鲁棒性的缺失,暴露了它并不是掌握了逻辑,而是捕捉到了概率。
结果是什么?
我们正在把数以亿计的业务流程,交给一个逻辑随时可能离线、且擅长一本正经胡说八道的系统。
这已经不是技术优化的问题,而是AI地基是否存在缺陷的本质争论。
如果现有的自回归架构无法从概率模拟跨越到真正的逻辑演绎,Scaling Law的终点会在哪里?
是通往AGI,还是通往一个更庞大、更不可控的幻觉黑盒?
