互联网技术【当AI睁着眼"装瞎"——李飞飞《海市蜃楼》撕开的，不只是多模态的遮

互联网技术【当AI睁着眼"装瞎"——李飞飞《海市蜃楼》撕开的，不只是多模态的遮羞布】

一、一个实验，三个寒意

李飞飞团队这篇《Mirage: The Illusion of Visual Understanding》之所以在AI圈掀起波澜，不是因为它发现了什么新技术，而是因为它做了一件最残忍的事——把皇帝的新衣，用数据量出来了。

三种做法，每一种单独拿出来都够让整个多模态产业失眠：

① 把图片偷偷删掉，什么都不告诉模型。

GPT-5.1、Gemini-3-Pro、Claude Opus 4.5……这些被公认"长出了眼睛"的旗舰模型，面对一片纯黑（确切说，连纯黑都没收到），不但不报错、不犹豫、不提示图像缺失，反而煞有介事地描述"可见的组织结构"、"右上肺叶的密度增高影"、"皮瓣的横纹与闰盘"——详细、连贯、专业、且彻底虚构。在Phantom-0的200道题、20个领域中，平均海市蜃楼率超过60%；套上常规评估提示词后，多数模型飙到90%–100%。

② 量化"不看图能拿几分"。

在6个主流基准（通用+医疗）上，无图模式下的准确率保留了有图模式的70%–80%。个别医疗基准的海市蜃楼分数冲到99%——意思是这道"视觉题"，本质上几乎不需要视觉。

③ 纯文本小模型，干翻千亿级多模态+人类医生。

团队拿Qwen-2.5-3B（30亿参数，纯文本，发布早于数据集，排除泄露嫌疑），在移除所有图像的胸部X光问答训练集上微调出一个"超级猜测器"（Super-Guesser）。结果它在ReXVQA的保留测试集上，超越了GPT-5、Gemini、Claude等所有被测多模态模型，也比放射科医生平均高出10个百分点——而它一张X光都没见过。

这才是真正让人后背发凉的地方：不是AI错了，而是它"对"得太容易，且"对"的方式跟你以为的完全不一样。

二、海市蜃楼 ≠ 幻觉——这是认知框架级别的造假

论文最精微的贡献，是区分了Hallucination（幻觉）和Mirage Reasoning（海市蜃楼推理）：

幻觉 Hallucination 海市蜃楼 Mirage Reasoning前提承认有图像输入，框架是对的连框架都是假的——表现得好像收到了图错误类型填入了不真实的细节（图中没人戴帽，它说有帽）凭空构建了一整张"不存在的图像"并据此推理危险信号细节可核查整个过程无缝衔接、专业可信、完全不自知

幻觉至少还在"看图"这件事上犯了错。海市蜃楼更根本——它根本就没看你给的东西，甚至可能没意识到你没给。它用预训练里吞下去的世界知识、统计先验、基准数据集的结构性泄漏、问题文本中的隐藏线索，组装出一段"应该长这样"的叙事，然后以满分自信吐出来。

而且论文补了一刀：当研究者明确告知"没有图片，请你盲猜"时，模型反而收敛了，准确率下降，切换到更保守的模式。反而是"假装啥都没发生"的海市蜃楼模式，激活了图文联合预训练中形成的深层捷径关联，蒙出更高的分。

翻译成人话：这东西不是"偶尔眼花"，而是"默认就靠嘴在跑，看图只是锦上添花的装饰"。

三、医疗AI：最亮眼的落地场景，也是海市蜃楼最危险的猎场

论文专门点了医疗领域的命门，而这个命门，恰恰是目前VC和医院最热衷砸钱的赛道。

① 病理偏见：海市蜃楼偏爱"严重病"

团队分析了Gemini-3-Pro在胸部X光、脑MRI、病理切片、心电图、皮肤科五类场景的蜃楼诊断分布——凭空生成的诊断，系统性偏向重症与紧急干预（STEMI心肌梗死、黑色素瘤、恶性肿瘤等）。

这完全合乎统计逻辑：训练语料里"异常→需要描述→有下文"的叙事密度远高于"正常→没什么可说的"。模型在填一个"请描述这张医学影像"的叙事模板时，先验概率天然往"有事"那边拽。

但放在真实临床管道里？这意味着：

- PACS接口超时、图片上传丢包、Agent工作流中某个中间件把二进制吃掉了——AI不报警，反而给你编一份紧急诊断。- 下游自动化（预筛、分诊提示、甚至辅助决策）把这个"笃定的虚构"接力传下去。- 一个本该是静默失败（fail-stop）的系统，变成了自信污染（silent corruption）——这才是最毒的故障模式。

② Super-Guesser的警示：你买的"视觉AI"，可能买的是一道超强阅读理解

ReXVQA这种胸部X光VQA数据集，表面上是"看图答医学问题"，但它的题目文本本身就携带了大量可答题线索——检查类型、常见解剖定位、高频病理组合、答案分布偏置。一个纯文本模型靠这些线索就能刷出最高分，说明当前"多模态医疗AI"的部分SOTA，本质上是高级搜索引擎，不是视觉诊断器。

这不是说现有医疗AI毫无视觉能力。而是说：你以为你在买的"看片能力"，可能七八成是你以为的那三四成。那三四成真正的视觉增益，被淹没了、被不可见了——而B-Clean框架帮我们看到了这一点：清洗掉74%–77%"受损题目"后，GPT-5.1在MicroVQA从61.5%暴跌到15.4%，排名洗牌。

四、这不是"AI不行"，而是我们的评价体系在作弊自己

很多人读完这篇论文的反应是："多模态是不是被高估了？"——方向不对。

真正被高估的不是多模态，是"基准测试分数 = 能力证明"这个等价关系。李飞飞团队的刀，割开的不是某个模型的喉咙，而是整个行业的自我验证闭环：

我们用公开的、可爬取的、大量存在于预训练语料邻域的题库来考模型 → 模型靠文本捷径+数据记忆+统计先验拿高分 → 我们宣布"视觉理解突破" → 融资/落地/监管背书跟进 → 没人检查它到底看没看。海市蜃楼效应的根源有三层，每一层都值得产业界对号入座：

第一层：架构层——LLM尾巴摇Vision狗

绝大多数商用多模态系统，本质是"超强语言模型 + 视觉编码器当插件"。视觉信号是约束条件，不是主导引擎。当视觉输入弱/缺/模糊时，语言先验自动接管，且接管过程平滑到用户完全感知不到拐点。

第二层：数据层——公开基准的"结构性泄密"

像ReXVQA这样的公开数据集，哪怕没有明文泄露答案，其问题措辞模式、标签分布、解剖部位命名规律，本身就构成了可 exploited 的统计结构。Super-Guesser证明了：你不需要看见像素，你只需要"认识题目的语法"。

第三层：部署层——没有"无图检测"的工程纪律

最实用的教训反而最简单：生产环境中，每一次视觉AI调用都应该强制校验「视觉编码器输出是否显著区别于零/噪声基线」。如果特征向量跟"空白/全零输入"余弦相似度过高——宁可报空，不要编故事。这不是算法问题，这是工程文化问题。

五、B-Clean是个好开始，但还不够

论文提出的B-Clean框架思路朴素但狠辣：让若干前沿模型在"不给图"条件下做题，任何一个能蒙对的题就算"受损"，剔除之，留下的才是真正视觉绑定的硬核子集。

这是必要的水位线。但它也有天花板：

- 相对性：筛掉哪些题，取决于你用哪些模型来探雷。更强的纯文本推理器出现后，今天的"干净子集"明天可能又被攻破。- 私有基准≠解决根因：私有测试集能防作弊，但不能让模型"长出真正的眼睛"。治标价值极高，治本还得回到训练目标、图文对齐约束、推理时的反事实探测（"如果我换成噪声图，你的答案变不变？"）上来。- 医疗场景需要比"准确率"更严的标尺：就算B-Clean后分数低，但只要假阳性/假阴性在关键时刻的分布不可接受，那低分本身也不等于安全。需要引入failure-mode审计（尤其是对重症偏倚的定向压力测试）。

六、这盆冷水，泼得正是时候

《Mirage》不是唱衰多模态，恰恰相反——只有戳破幻象，真正的视觉智能才有立足之地。

过去几年，"多模态"三个字被用成了免检标签。投资人看demo觉得神奇，产品经理接API觉得省事，医院领导看PPT觉得前沿。但李飞飞团队用一组冰冷的控制变量实验提醒所有人：

一个系统能在视觉任务上拿高分，和它是否基于视觉做决策，是两件事。前者是排行榜游戏，后者是工程与安全。对从业者的实操启示其实很清晰：

- 🔴 医疗/安检/自动驾驶等高后果场景：立刻补"无图/坏图检测"——拒绝回答必须比猜错便宜。- 🟡 做产品的：别拿公开VQA基准当"我们AI很强"的唯一证据，自己做破坏性测试（删图、换噪声图、篡改元数据）。- 🟢 做研究的：海市蜃楼效应指向一个深层问题——当前训练范式缺少对"视觉必要性的因果绑定"。这条路通向的，可能是下一代真正 grounded 的多模态架构。

最后说一句：这篇论文最让人尊敬的地方，不是它多聪明，而是它敢做那个举手说"皇帝没穿衣服"的人——而且用的是可复现的实验，不是口号。李飞飞作为"ImageNet教母"，亲手拆掉的恰恰是ImageNet时代遗留下来的"以分数为信仰"的惯性。这份诚实，比任何SOTA都值钱。

注：论文原文：Asadi et al., Mirage: The Illusion of Visual Understanding, arXiv:2603.21687 (2026)

昊梵体育网

互联网技术【当AI睁着眼"装瞎"——李飞飞《海市蜃楼》撕开的，不只是多模态的遮

热门分类

互联网技术 【当AI睁着眼"装瞎"——李飞飞《海市蜃楼》撕开的，不只是多模态的遮

热门分类

互联网技术【当AI睁着眼"装瞎"——李飞飞《海市蜃楼》撕开的，不只是多模态的遮