UC Santa Cruz等发现: AI视觉模型"眼睛"出问题时，让它多想也没用

这项由加州大学圣克鲁兹分校、亚马逊、滑铁卢大学联合开展的研究，发表于2026年第43届国际机器学习大会（ICML 2026），论文编号为arXiv:2605.20177。有兴趣深入了解的读者可以通过该编号查询完整论文。

你有没有遇到过这样的经历：当你带着眼镜度数不对去看一份文件时，无论你怎么仔细辨认、反复确认，最终看到的字依然是错的。问题不在于你脑子不够用，而在于眼睛传进来的信息本就失真了。这个再简单不过的生活经验，恰好揭示了当前最先进的AI视觉助手正在面临的核心困境。

近年来，视觉语言模型（Vision-Language Models，通俗来说就是"能看图、能思考、能回答问题的AI"）取得了长足进步。研究者们为了让这类AI更聪明，拼命训练它"多想几步"——让它在回答之前先把思考过程一步一步列出来，就像数学考试要求"写出解题过程"一样。这种策略被称为"链式思维推理"，在纯文字领域确实大幅提升了AI的表现。

然而，这项研究的团队在仔细分析了大量AI答题记录后，发现了一个令人惊讶的现象：对于视觉任务来说，很多时候AI答错并不是因为"想得不够"，而是因为"看错了"。更棘手的是，一旦AI在最开始看图时就理解错了某个细节，后续无论它思考多少步、反复检查多少遍图片，依然会在同一个错误上打转，无法自我纠正。

研究团队分析了三个视觉数学数据集中Qwen3-VL-8B模型的错误答案，发现其中高达86.9%的错误根源都是视觉感知出了问题——也就是说，AI"看"错了图，而不是"想"错了题。这个数字让研究者意识到：一直以来，大家把训练精力都放在提升"思考能力"上，却忽视了"看图能力"这个更基础的环节。

基于这一发现，来自加州大学圣克鲁兹分校、亚马逊、滑铁卢大学的研究团队提出了一套全新的训练框架：把AI的视觉能力拆分成三个独立的部分，按照从基础到复杂的顺序依次强化，就像打地基盖房子一样，先把基础打扎实，再往上盖墙加顶。这套方法简洁但效果显著，让模型在视觉数学推理任务上提升了5.2%，同时推理过程还缩短了20.8%——更准确，更简洁，这两件事居然同时实现了。

---

一、一个看似简单却困扰着整个行业的问题

要理解这项研究在做什么，先从一道数学几何题说起。论文中提到的一个典型案例：给AI一张几何图形，图上标着几段线段的长度，题目问某条线段BD的长度。正确解题需要先认清图中各个切点的位置关系，再用相关的数学定理推导。

当AI在最开始就把两段线段的长度对应关系读错时——比如把AP读成了5，把AC读成了3，而实际上两者应该相等——后续的推理就全部建立在这个错误的基础上了。AI意识到了矛盾，于是反复"重新检查图片"，每次检查的结论依然是AP=5、AC=3，因为它的"眼睛"（视觉感知模块）没有得到任何实质性的改善，看到的还是同一个错误的信息。最终，AI产生了大量繁复的推理文字，却无法得出正确答案。

与之形成鲜明对比的是：如果AI一开始就正确识别了图中的几何关系，知道AC=AB=3，那么整个推理过程可以极为简洁——直接用切线长度相等的性质，两三步就得出BD=2，干净利落。

这个对比说明了一件重要的事：思考的质量依赖于感知的准确性。感知错了，再多的思考只是在放大错误。

研究团队把这一现象总结为一条核心判断：**更长的思考无法修复错误的感知**。这听起来很直白，但它对整个AI视觉推理领域的训练方式提出了根本性的质疑——如果大家一直在努力的方向（增强推理）并不是解决问题的关键所在，那真正应该做的是什么？

---

二、把AI的能力拆成三层，一层一层地打磨

研究团队的核心思路是：与其把各种能力混在一起训练，不如把它们分开，针对每一种能力单独强化，再按照合理的顺序组合起来。

他们把视觉语言模型的能力分成了三个层次。第一层是视觉感知，也就是AI能不能准确看清图片里的内容——细节在哪、物体是什么颜色、空间位置关系如何、有几个物体、图上的字怎么写。这是最基础的能力，相当于人的"眼力"。第二层是文字推理，也就是当题目完全以文字形式呈现时，AI能不能做多步骤的逻辑推理和数学运算。这相当于人的"思维能力"，不依赖视觉。第三层是视觉推理，这才是最终的综合能力——既要看清图，又要在此基础上进行复杂推理，比如解几何题、分析图表趋势、理解示意图中的逻辑关系。

这三层能力的关系，用盖房子来比喻再恰当不过：视觉感知是地基，文字推理是承重墙，视觉推理是最终完工的建筑。如果地基没打好，墙盖得再高也不稳。

基于这一认识，研究团队设计了"分阶段训练"方案：先专门训练视觉感知能力，再训练文字推理能力，最后训练视觉推理能力，三个阶段依次进行，每个阶段使用专门针对该能力设计的训练数据。这个过程被命名为"分阶段后训练框架"。

---

三、最难的部分：怎么教AI"看得更准"

训练文字推理和视觉推理，已经有很多成熟的方法和现成的数据集可以用。但训练"视觉感知"这件事，听起来简单，实际上有个微妙的挑战：你怎么知道一道题"考的是感知"而不是"考的是推理"？

研究团队为此专门设计了一套数据筛选流程，堪称精妙。他们首先从一个名为DOCCI的数据集入手——这个数据集包含约1.5万张图片，每张图片都配有一段极其详细的文字描述，把图中的每个细节都用语言表达清楚了。

团队让另一个强大的语言模型（Qwen2.5-72B）阅读这些文字描述，然后自动生成问答题——问题专门针对图中的视觉细节，比如"图中有几盏路灯？"或"哪个字母看起来是最近刷新过的？"这样，问题的答案可以从文字描述中找到，但原始依据藏在图片里。

接下来是关键的"筛选"步骤——研究团队把这些问题分别用两种方式测试AI：一种是给AI看图片来回答，另一种是给AI看文字描述来回答。如果AI看了文字描述能回答对，但看了图片却回答错了，那这道题就被保留下来了。为什么？因为这恰好说明：这道题所需的信息在图中客观存在，只是AI的视觉感知没能正确提取出来——这正是"感知缺陷"的完美体现。

这个筛选过程还用了两个不同规格的AI模型（Qwen2.5-VL-7B和Qwen2.5-VL-32B）来交叉验证，确保筛出来的题目确实是感知难题而非其他类型的难题。最终得到的这批数据，就专门用来训练AI的视觉感知能力。

举两个具体例子来说明这类数据长什么样。第一题：一张夜晚桥梁的照片，问"河面上反射了几盏路灯？"正确答案是七盏，而如果只是粗看图片很容易数错。第二题：一张墙上涂鸦的照片，写着"GUEST"这个单词，问"哪个字母看起来是最近才重新涂刷的？"正确答案是字母S，因为它的颜色更深、油漆更新，但这需要仔细辨别每个字母的色泽和纹理。这两道题都要求AI具备精细的视觉辨别能力，不是随便扫一眼就能答对的。

---

四、比让AI"多想"更重要的，是让AI"换种方式学"

在确定了用什么数据训练感知能力之后，团队还研究了一个更深层的问题：用什么训练方式效果最好？

最直观的思路是"让AI记答案"——给它看图，告诉它正确答案，让它反复学习图片和答案之间的对应关系。这种方式在AI领域叫做"监督微调"（SFT），是训练视觉语言模型最常见的方法之一，也是早期大量工作依赖的技术路线。

然而，研究团队发现，对于视觉感知训练来说，这种方式效果反而不如另一种更"主动"的训练方式——基于可验证奖励的强化学习（RLVR）。

用一个类比来理解这两种方式的区别：监督微调就像死记硬背——老师把正确答案都给你了，你只需要反复背诵；而强化学习则像自己摸索——AI自己尝试各种回答，对的就给予鼓励，错的就给予惩罚，AI在这个过程中逐渐学会什么样的视觉理解是准确的。

为什么强化学习对感知训练更有效？研究者解释了一个核心原因：监督微调使用的是"固定答案"来训练，但如果这些答案来自的标注质量不如模型本身的预训练水平，反而会拉低模型的表现。更重要的是，监督微调是"被动接受"的学习方式，模型在训练时不一定真的在学习"如何更准确地从图片中提取信息"，而可能只是在学习"哪种答案格式是被期待的"。强化学习则不同，它让模型保持在自己真实的能力状态下不断尝试，通过真实的对错反馈来调整内部的视觉处理机制，得到的改善更加稳固。

数据也印证了这一点：在WeMath（一个视觉数学推理基准测试）上，用强化学习训练感知的Qwen2.5-VL-7B模型比用监督微调的同款模型高出了8.1个百分点；对于更强的Qwen3-VL-8B模型，这一差距是1.6个百分点。

---

五、分开训练，还是混在一起训练？实验给出了清晰的答案

除了"用什么训练感知"，团队还系统地研究了"按什么顺序训练"这个问题。

传统做法是"合并训练"：把感知数据、文字推理数据、视觉推理数据统统混在一起，打乱顺序，一起训练。这种方式的好处是简单方便，训练一次就搞定。

研究团队设计了严格的对照实验，把这种合并训练方式与他们的分阶段训练方式进行了全面比较。结果相当清晰：在两个不同规模的模型（Qwen2.5-VL-7B和Qwen3-VL-8B）上，分阶段训练在几乎所有测试项目上都优于合并训练。

以Qwen3-VL-8B为例：合并训练后，模型在视觉数学推理方面的平均得分是49.6%；而分阶段训练后，这个数字提升到了51.1%。同时，分阶段训练的模型在回答问题时产生的文字要短20.8%——平均每次回答445个词，而合并训练的模型需要562个词。换句话说，分阶段训练不仅让AI答得更准，还让AI答得更简洁。

这两件事同时发生，并不是巧合。研究团队解释说，这恰恰证明了核心观点：当AI的视觉感知变得更准确，它在推理过程中就不需要反复"重新检查图片"、反复质疑自己的视觉判断了。感知准确，推理自然流畅简洁；感知有误，推理就会陷入冗长的自我怀疑和反复核查的循环。

为了验证这个结论不只适用于某一个模型系列，团队还在完全不同架构的模型上进行了测试，包括InternVL3.5-8B和InternVL3-8B。结果同样支持分阶段训练：InternVL3-8B在分阶段训练后整体提升了3.77%，InternVL3.5-8B提升了0.95%。跨越不同架构的一致结论，大大增强了这一发现的可信度。

---

六、顺序不能乱：视觉感知必须先来

研究团队进一步追问：分阶段训练的三个阶段，顺序重要吗？能不能把感知训练放到最后？

为了回答这个问题，他们测试了三种不同的训练顺序。第一种是他们推荐的顺序：先训练视觉感知，再训练文字推理，最后训练视觉推理。第二种是把前两个阶段交换：先文字推理，再视觉感知，最后视觉推理。第三种是完全颠倒：先视觉推理，再文字推理，最后视觉感知。

实验结果非常有说服力：第一种和第二种顺序的效果相差不大，两者都明显好于合并训练。这说明视觉感知和文字推理这两个"基础能力"的训练顺序相对灵活，两者都可以排在视觉推理之前，互换位置不影响大局。

但第三种顺序——把视觉推理放在第一位、把感知训练放到最后——效果就差多了。对于Qwen2.5-VL-7B，这种顺序下视觉数学平均得分从42%以上跌到了37.7%，感知能力也跌到了74.2%，几乎和没有训练一样。

这个结果的解读是：当AI一开始就在感知尚不准确的情况下学习复杂的视觉推理，感知错误和推理过程会紧紧地缠绕在一起，互相干扰，形成难以解开的"坏习惯"。等到最后再去训练感知，已经很难把之前养成的错误模式纠正过来了。视觉感知必须先打好基础，才能让后续的推理训练真正发挥作用。

---

七、两种维度的"学习课程"，叠加起来效果更好

在教育学领域，有一个古老而有效的原则：由易到难。先教简单的内容，等学生掌握了再教难的。这种方式叫做"课程学习"，在AI训练领域也有对应的实践——把训练数据按照难度排序，让AI先学简单的，再学难的。

研究团队在提出"按能力分阶段训练"的同时，也思考了这两种训练策略之间的关系：按能力分阶段，是一种维度的课程安排；按难度排序，是另一种维度的课程安排。这两者能不能叠加使用，获得更好的效果？

为了检验这个问题，团队设计了四种配置并进行对比：完全混合训练（没有任何顺序）、只按能力分阶段（也就是前文的分阶段训练）、只按难度排序（数据全部混合但从简单到难排列）、以及同时按能力分阶段又在每个阶段内按难度排序。

难度的判断方式也很直观：对每道题，让AI尝试回答16次，统计答对的概率。答对概率高的题是简单题，答对概率低的是难题，这样就得到了每道题的难度评分。

结果显示，只按能力分阶段的平均得分是60.53%，只按难度排序的是60.36%，两者都比完全混合训练（58.56%）好。而把两者结合起来，得分进一步提升到62.99%，比任何一种单独方法高出了2%以上。

这个发现在概念上也很有意思：按能力分阶段，解决的是"学什么"和"什么时候学什么类型的技能"的问题；按难度排序，解决的是"用什么难度的材料来学"的问题。这两个问题是独立的，互不干扰，自然可以同时优化，叠加效益。

---

八、最终成绩单：在真实测试中的表现

研究团队把经过分阶段训练的模型与当前公开的多个同类模型进行了全面比较，测试涵盖了视觉数学推理和视觉感知两大类共八个具体的评测基准。

在数学推理方面，以MathVista（一个综合视觉数学测试集）为例，分阶段训练的Qwen3-VL-8B达到了75.9%的准确率；在WeMath（一个更侧重数学推理深度的测试）上达到56.1%。在视觉感知方面，RealWorldQA（测试对真实世界图片的理解）得分为74.5%，MMStar（综合多项感知能力）得分为73.1%。

与同期公布的OneThinker-8B（一个专注于推理能力的类似规模模型）相比，分阶段训练的模型在WeMath上高出1.5个百分点，在RealWorldQA上高出3.0个百分点，整体平均得分达到65.8%，超过了所有同等规模的对比模型。

在7B规模的对比中，与GThinker、MMR1、OpenVLThinker等近期专注于推理能力的模型相比，分阶段训练的Qwen2.5-VL-7B在视觉数学平均得分上达到42.3%，同时保持了77.2%的视觉感知平均得分——也就是说，推理提升了，感知没有下降，实现了真正意义上的全面提升。

---

研究团队最后还有一个有趣的观察值得一提：他们用一个AI工具分析了所有模型错误回答中的感知错误数量。在Qwen3-VL-8B的基础版本中，三个测试集共有857个样本被认定含有感知错误。经过合并训练后，这个数字降到了805个；经过分阶段训练后，进一步降到了781个。方向一致，效果逐步叠加。

归根结底，这项研究讲述的是一个"先学会看，才能学会想"的故事。当AI能更准确地感知图片中的信息，后续的推理就不需要耗费大量精力去质疑、修正、反复核查最初的视觉判断，而是可以直接基于可靠的信息进行高效推理。这不仅让最终答案更准确，也让整个推理过程更加简洁。

对于从事AI应用开发的人来说，这意味着在训练视觉推理AI时，专门为感知能力设计训练数据和训练阶段，可能比单纯增加推理训练量更有价值。对于关注AI发展的普通人来说，这项研究提醒我们：AI犯错的原因往往比我们想的更"基础"——不是它不够聪明，而是它"没看清楚"。而解决这个问题的方式，也出人意料地接近人类学习的逻辑：先打好基础，再谈提高。

感兴趣的读者可以通过arXiv编号2605.20177获取这篇完整论文，或访问项目主页 ucsc-vlaa.github.io/VLM-CapCurriculum/ 了解更多实验细节和训练数据。

---

Q&A

Q1：视觉感知训练和普通的视觉推理训练有什么区别？

A：视觉感知训练专门针对AI"看清图片"的能力，比如认清颜色、数量、位置关系等基础细节，不需要复杂的逻辑推理。而视觉推理训练则是在看清图的基础上进行多步骤思考，比如解几何题。这项研究的核心发现是，感知能力必须单独强化，不能寄希望于通过推理训练一并解决。

Q2：分阶段训练为什么能让AI回答问题时用的字更少？

A：当AI的视觉感知更准确时，它在推理过程中不需要反复"重新查看图片"来核实自己看到的信息是否正确。感知准了，推理路径就直接了；感知有问题，AI就会不断质疑、反复确认，产生大量多余的文字。分阶段训练让AI减少了20.8%的回答长度，同时准确率反而更高。

Q3：强化学习比监督微调（记答案的方式）更适合训练视觉感知的原因是什么？

A：监督微调相当于给AI一套固定答案让它背，如果这些答案质量一般，反而会拉低模型原有水平。而强化学习让AI自己尝试，通过真实的对错反馈来调整视觉理解方式，学到的是真正的感知能力而不是答案格式。实验显示，在视觉数学测试上，强化学习方式比监督微调高出1.6%到8.1%不等。

昊梵体育网

UC Santa Cruz等发现: AI视觉模型"眼睛"出问题时，让它多想也没用

热门分类