昊梵体育网

互联网技术 【当AI睁着眼"装瞎"——李飞飞《海市蜃楼》撕开的,不只是多模态的遮

互联网技术 【当AI睁着眼"装瞎"——李飞飞《海市蜃楼》撕开的,不只是多模态的遮羞布】

一、一个实验,三个寒意

李飞飞团队这篇《Mirage: The Illusion of Visual Understanding》之所以在AI圈掀起波澜,不是因为它发现了什么新技术,而是因为它做了一件最残忍的事——把皇帝的新衣,用数据量出来了。

三种做法,每一种单独拿出来都够让整个多模态产业失眠:

① 把图片偷偷删掉,什么都不告诉模型。

GPT-5.1、Gemini-3-Pro、Claude Opus 4.5……这些被公认"长出了眼睛"的旗舰模型,面对一片纯黑(确切说,连纯黑都没收到),不但不报错、不犹豫、不提示图像缺失,反而煞有介事地描述"可见的组织结构"、"右上肺叶的密度增高影"、"皮瓣的横纹与闰盘"——详细、连贯、专业、且彻底虚构。 在Phantom-0的200道题、20个领域中,平均海市蜃楼率超过60%;套上常规评估提示词后,多数模型飙到90%–100%。

② 量化"不看图能拿几分"。

在6个主流基准(通用+医疗)上,无图模式下的准确率保留了有图模式的70%–80%。个别医疗基准的海市蜃楼分数冲到99%——意思是这道"视觉题",本质上几乎不需要视觉。

③ 纯文本小模型,干翻千亿级多模态+人类医生。

团队拿Qwen-2.5-3B(30亿参数,纯文本,发布早于数据集,排除泄露嫌疑),在移除所有图像的胸部X光问答训练集上微调出一个"超级猜测器"(Super-Guesser)。结果它在ReXVQA的保留测试集上,超越了GPT-5、Gemini、Claude等所有被测多模态模型,也比放射科医生平均高出10个百分点——而它一张X光都没见过。

这才是真正让人后背发凉的地方:不是AI错了,而是它"对"得太容易,且"对"的方式跟你以为的完全不一样。

二、海市蜃楼 ≠ 幻觉——这是认知框架级别的造假

论文最精微的贡献,是区分了Hallucination(幻觉)和Mirage Reasoning(海市蜃楼推理):

幻觉 Hallucination 海市蜃楼 Mirage Reasoning前提 承认有图像输入,框架是对的 连框架都是假的——表现得好像收到了图错误类型 填入了不真实的细节(图中没人戴帽,它说有帽) 凭空构建了一整张"不存在的图像"并据此推理危险信号 细节可核查 整个过程无缝衔接、专业可信、完全不自知

幻觉至少还在"看图"这件事上犯了错。海市蜃楼更根本——它根本就没看你给的东西,甚至可能没意识到你没给。 它用预训练里吞下去的世界知识、统计先验、基准数据集的结构性泄漏、问题文本中的隐藏线索,组装出一段"应该长这样"的叙事,然后以满分自信吐出来。

而且论文补了一刀:当研究者明确告知"没有图片,请你盲猜"时,模型反而收敛了,准确率下降,切换到更保守的模式。反而是"假装啥都没发生"的海市蜃楼模式,激活了图文联合预训练中形成的深层捷径关联,蒙出更高的分。

翻译成人话:这东西不是"偶尔眼花",而是"默认就靠嘴在跑,看图只是锦上添花的装饰"。

三、医疗AI:最亮眼的落地场景,也是海市蜃楼最危险的猎场

论文专门点了医疗领域的命门,而这个命门,恰恰是目前VC和医院最热衷砸钱的赛道。

① 病理偏见:海市蜃楼偏爱"严重病"

团队分析了Gemini-3-Pro在胸部X光、脑MRI、病理切片、心电图、皮肤科五类场景的蜃楼诊断分布——凭空生成的诊断,系统性偏向重症与紧急干预(STEMI心肌梗死、黑色素瘤、恶性肿瘤等)。

这完全合乎统计逻辑:训练语料里"异常→需要描述→有下文"的叙事密度远高于"正常→没什么可说的"。模型在填一个"请描述这张医学影像"的叙事模板时,先验概率天然往"有事"那边拽。

但放在真实临床管道里?这意味着:

- PACS接口超时、图片上传丢包、Agent工作流中某个中间件把二进制吃掉了——AI不报警,反而给你编一份紧急诊断。- 下游自动化(预筛、分诊提示、甚至辅助决策)把这个"笃定的虚构"接力传下去。- 一个本该是静默失败(fail-stop)的系统,变成了自信污染(silent corruption)——这才是最毒的故障模式。

② Super-Guesser的警示:你买的"视觉AI",可能买的是一道超强阅读理解

ReXVQA这种胸部X光VQA数据集,表面上是"看图答医学问题",但它的题目文本本身就携带了大量可答题线索——检查类型、常见解剖定位、高频病理组合、答案分布偏置。一个纯文本模型靠这些线索就能刷出最高分,说明当前"多模态医疗AI"的部分SOTA,本质上是高级搜索引擎,不是视觉诊断器。

这不是说现有医疗AI毫无视觉能力。而是说:你以为你在买的"看片能力",可能七八成是你以为的那三四成。 那三四成真正的视觉增益,被淹没了、被不可见了——而B-Clean框架帮我们看到了这一点:清洗掉74%–77%"受损题目"后,GPT-5.1在MicroVQA从61.5%暴跌到15.4%,排名洗牌。

四、这不是"AI不行",而是我们的评价体系在作弊自己

很多人读完这篇论文的反应是:"多模态是不是被高估了?"——方向不对。

真正被高估的不是多模态,是"基准测试分数 = 能力证明"这个等价关系。李飞飞团队的刀,割开的不是某个模型的喉咙,而是整个行业的自我验证闭环:

我们用公开的、可爬取的、大量存在于预训练语料邻域的题库来考模型 → 模型靠文本捷径+数据记忆+统计先验拿高分 → 我们宣布"视觉理解突破" → 融资/落地/监管背书跟进 → 没人检查它到底看没看。海市蜃楼效应的根源有三层,每一层都值得产业界对号入座:

第一层:架构层——LLM尾巴摇Vision狗

绝大多数商用多模态系统,本质是"超强语言模型 + 视觉编码器当插件"。视觉信号是约束条件,不是主导引擎。当视觉输入弱/缺/模糊时,语言先验自动接管,且接管过程平滑到用户完全感知不到拐点。

第二层:数据层——公开基准的"结构性泄密"

像ReXVQA这样的公开数据集,哪怕没有明文泄露答案,其问题措辞模式、标签分布、解剖部位命名规律,本身就构成了可 exploited 的统计结构。Super-Guesser证明了:你不需要看见像素,你只需要"认识题目的语法"。

第三层:部署层——没有"无图检测"的工程纪律

最实用的教训反而最简单:生产环境中,每一次视觉AI调用都应该强制校验「视觉编码器输出是否显著区别于零/噪声基线」。如果特征向量跟"空白/全零输入"余弦相似度过高——宁可报空,不要编故事。这不是算法问题,这是工程文化问题。

五、B-Clean是个好开始,但还不够

论文提出的B-Clean框架思路朴素但狠辣:让若干前沿模型在"不给图"条件下做题,任何一个能蒙对的题就算"受损",剔除之,留下的才是真正视觉绑定的硬核子集。

这是必要的水位线。但它也有天花板:

- 相对性:筛掉哪些题,取决于你用哪些模型来探雷。更强的纯文本推理器出现后,今天的"干净子集"明天可能又被攻破。- 私有基准≠解决根因:私有测试集能防作弊,但不能让模型"长出真正的眼睛"。治标价值极高,治本还得回到训练目标、图文对齐约束、推理时的反事实探测("如果我换成噪声图,你的答案变不变?")上来。- 医疗场景需要比"准确率"更严的标尺:就算B-Clean后分数低,但只要假阳性/假阴性在关键时刻的分布不可接受,那低分本身也不等于安全。需要引入failure-mode审计(尤其是对重症偏倚的定向压力测试)。

六、这盆冷水,泼得正是时候

《Mirage》不是唱衰多模态,恰恰相反——只有戳破幻象,真正的视觉智能才有立足之地。

过去几年,"多模态"三个字被用成了免检标签。投资人看demo觉得神奇,产品经理接API觉得省事,医院领导看PPT觉得前沿。但李飞飞团队用一组冰冷的控制变量实验提醒所有人:

一个系统能在视觉任务上拿高分,和它是否基于视觉做决策,是两件事。前者是排行榜游戏,后者是工程与安全。对从业者的实操启示其实很清晰:

- 🔴 医疗/安检/自动驾驶等高后果场景:立刻补"无图/坏图检测"——拒绝回答必须比猜错便宜。- 🟡 做产品的:别拿公开VQA基准当"我们AI很强"的唯一证据,自己做破坏性测试(删图、换噪声图、篡改元数据)。- 🟢 做研究的:海市蜃楼效应指向一个深层问题——当前训练范式缺少对"视觉必要性的因果绑定"。这条路通向的,可能是下一代真正 grounded 的多模态架构。

最后说一句:这篇论文最让人尊敬的地方,不是它多聪明,而是它敢做那个举手说"皇帝没穿衣服"的人——而且用的是可复现的实验,不是口号。 李飞飞作为"ImageNet教母",亲手拆掉的恰恰是ImageNet时代遗留下来的"以分数为信仰"的惯性。这份诚实,比任何SOTA都值钱。

注:论文原文:Asadi et al., Mirage: The Illusion of Visual Understanding, arXiv:2603.21687 (2026)