
这项由南京开大学VCIP计算机科学实验室与阿里巴巴通义实验室联合开展的研究,以预印本形式于2026年5月发表在arXiv平台,论文编号为arXiv:2605.18018v1。研究提出了名为SWIM(See What I Mean,"明白我的意思")的全新训练策略,致力于解决多模态大语言模型在理解用户文字描述时"找不准目标物体"的根本性问题。
你有没有遇到过这样的体验:你对着一个智能助手说"帮我描述一下街道上那个穿红衣服的人",结果它给你描述的却是整条街道,或者描述了旁边那辆最显眼的汽车?这种"答非所问"的现象在当下最先进的视觉语言AI系统中普遍存在,而且令人沮丧的是,这并不是AI没有"看到"那个人,而是它无法把你说的"红衣服的人"这几个字,和视频画面里那个具体的人物准确地对应起来。
研究团队把这个问题比作一场沟通错位——AI拥有眼睛,也拥有耳朵,但眼睛和耳朵之间的"翻译系统"出了问题。SWIM项目的核心目标,就是修复这套翻译系统,让AI真正做到"明白你说的是哪个"。
一、为什么AI总是找不准你说的那个物体
要理解这个问题,可以用一个日常场景来类比。假设你站在一个热闹的菜市场里,让一个朋友帮你找"那个卖西红柿的摊位"。如果你的朋友经验丰富,他会把你说的"西红柿"这个词,和视野里某个具体摊位的红色圆形物体对应起来,精准锁定目标。但如果这个朋友对市场不熟悉,他可能会漫无目的地扫视整个市场,最终指向了那个最显眼的大摊位,而不是你说的那个。
现有的多模态大语言模型(可以理解为"同时能看图、看视频又能理解文字的AI")就像那个不熟悉市场的朋友。为了弄清楚问题出在哪里,研究团队做了一个非常直观的实验:他们把AI模型在处理文字时的"注意力分布"可视化出来——也就是说,当AI读到某个词的时候,它的目光落在图像的哪些区域。
实验结果令人意外,却又在情理之中。当AI读到"棕色"、"胡须"这样描述外观特征的词时,它的注意力非常集中,准确落在了图像中那个真正棕色的区域、那张真正有胡须的脸上。但当AI读到"男人"、"人"这样的名词时,注意力却分散得到处都是,整张图像上都有一点点激活,就像把一滴墨水滴进了一大盆水里,哪里都有颜色,却哪里都不清晰。
这个发现揭示了一个系统性的规律:描述外观特征的词(颜色、纹理、形状)能够精准定位,而代表物体本身的名词却总是漫无方向。研究团队分析了其中的原因:在AI用来训练的海量图文数据中,"红色"这个词往往只出现在图像里真正红色的区域附近,因此AI学到了"红色"和特定视觉区域的紧密联系。但"男人"这个词在各种不同的场景下都会出现——室内、室外、近处、远处、正脸、背影——这种多样性导致AI无法把这个词和某个具体的视觉区域牢牢绑定在一起。
正因如此,当用户用纯文字描述某个物体时,AI往往无法准确理解你说的到底是画面里的哪一个。而为了解决这个问题,现有的一些方法走了一条"绕路":让用户额外提供视觉标记——比如在图像上画一个框、打一个点、或者涂一个遮罩——来明确告诉AI"就是这个"。这种方式虽然有效,却背离了人类最自然的交流方式:我们说话的时候,不会随手拿着画笔在空气中圈出目标物体,我们依靠语言本身来指定目标。
二、现有解决方案的局限:不得不拿着"指示棒"说话
目前学术界和工业界已经有了一批专门针对"精细化物体理解"的模型,它们确实能更好地理解用户指定的具体物体,但代价是需要额外的视觉输入。
以视频领域为例,VideoRefer这类模型需要用户提供对应帧的精确遮罩(就像在物体轮廓上描了一圈),Ferret需要用户框出物体的位置,还有一些模型需要用户点击物体所在的坐标点。这些方法确实能让AI"看准"目标,但使用起来极为不便——普通用户在日常对话中不可能随时准备好这些视觉标注工具。
更重要的是,这类方法在架构设计上通常需要额外的模块:一个专门处理遮罩的编码器、一个额外的视觉区域提取网络……这不仅增加了系统的复杂度,也意味着在使用时必须额外准备这些"道具"。
研究团队认为,真正理想的系统应该像人类一样:只用语言就能精准指定目标,不需要任何额外工具。实现这个目标的关键,不是给模型增加更多模块,而是让模型内部的"语言-视觉对应关系"变得更加精准。
三、构建"教材":NL-Refer数据集的诞生
任何学习都需要好的教材,训练AI也不例外。要让AI学会把名词和具体物体对应起来,首先需要一批"标准答案"——每张图、每段视频里,文字中提到的物体,都要有对应的精确视觉标注。
研究团队的出发点是VideoRefer数据集,这是一个已有700K个视频样本的视频理解数据集,其中每个样本都包含视频帧、文字描述,以及物体的像素级遮罩标注。然而问题在于,原始数据集中的文字描述用的是一个占位符号``来指代目标物体,比如"请描述视频中``的特征"。这个占位符对人来说一看就懂(结合视觉标记),但对于希望从纯文字中学习对应关系的AI来说,这等于告诉它"这里有个目标物体",却没有给出任何语义信息——AI无从知晓这个物体叫什么、有什么特征。
为了解决这个问题,研究团队设计了一个GPT-4o驱动的数据处理流程。具体而言,他们让GPT-4o阅读每个样本中配套的详细描述文字(比如"一个穿白色T恤、留着胡须的年轻男性正在走路"),然后让它把文字里的``占位符替换成一个简洁、准确的自然语言指代表达式,同时在这个表达式里找出最核心的名词(比如"男人"),用特殊标记``把它包围起来。
经过这样处理,原本的"请描述视频中``的特征"就变成了"请描述视频中那个**留着胡须的年轻男人**在街上行走的特征",其中"男人"这个词被标记出来,并且与原来的像素级遮罩直接挂钩。这套经过精心处理的数据集被命名为NL-Refer,包含12.5万个视频样本,每个样本都建立了从自然语言名词到视觉区域的精确映射。
这相当于为AI准备了一套带有精确答案的练习题:每道题告诉AI"当你读到这个词时,你的目光应该落在图像的这个区域"。
四、SWIM训练策略:用"考试压力"纠正注意力习惯
有了高质量的教材,接下来是设计训练方法。SWIM的核心思路其实并不复杂:在AI训练过程中,每当AI读到一个被标记的关键名词时,就检查它的注意力是否落在了正确的视觉区域;如果没有,就给它一个"惩罚信号",推着它把注意力调整到正确位置上去。
具体来说,当AI处理一段输入时,它的内部有多层"注意力机制",每一层都在决定"当我处理某个词时,我应该关注视频画面的哪些部分"。研究团队从AI的中间多层同时提取这种注意力分布图,然后把这些来自不同层的注意力图取平均,得到一张综合的注意力热力图,代表AI整体上在关注画面的哪些区域。
接下来,这张热力图被拿来和预先标注好的物体遮罩(即目标物体的真实轮廓)进行对比:热力图中的高亮区域是否和物体遮罩重合?使用的衡量标准是二值交叉熵损失函数——可以理解为一种"考卷评分机制",它对图像上每个像素点独立打分:如果某个像素属于目标物体,对应位置的注意力越高越好;如果某个像素不属于目标物体,对应位置的注意力越低越好。这个评分机制会生成一个"罚分",罚分越高说明注意力和真实区域偏差越大,训练过程会根据这个罚分不断调整AI的参数,直到注意力越来越集中在正确区域上。
这里有一个非常关键的设计特点:这套遮罩监督只在训练阶段使用。当训练完成、模型正式投入使用时,用户不需要提供任何遮罩或其他视觉标注,只需用普通文字描述目标物体,模型就能自动把注意力对准正确区域。这就好比你通过大量练习学会了"看到描述就能想象对应画面"的能力,在实际使用时不再需要图片辅助,单凭描述就能在脑海中精准定位目标。
关于具体从哪些层提取注意力图,研究团队也做了系统性的探索。他们发现,从单一层提取效果最差,使用六层效果最好,再增加层数收益递减。更重要的发现是,这六层最好均匀分布在整个网络的浅层到深层,而不是集中在某个特定深度段——这说明精准的物体理解需要同时利用低层的纹理特征和高层的语义理解,两者缺一不可。
在注意力图的合并方式上,研究团队对比了加法、最大值池化、乘法、平均值四种方式,最终发现直接取平均效果最好。原因在于,乘法会导致某个层注意力稍低的区域被整体压低,遗漏了部分有效信息;而平均值能平滑各层之间的噪声,同时保留最显著的激活峰值。
在损失函数的选择上,研究团队对比了四种方案:mIoU损失、Focal损失、Dice损失和二值交叉熵(BCE)损失。最终BCE损失效果最优,原因在于注意力图天然是稀疏的(大部分区域注意力接近零),而BCE对每个像素独立计算,既惩罚了目标区域内的低注意力,也惩罚了非目标区域的高注意力,与注意力图的稀疏特性非常契合。
五、实验结果:不只是比别人强一点点
研究团队在多个视频理解基准上对SWIM进行了系统测试,结果相当令人信服。
在VideoRefer-Bench上,这个专门评测视频精细化物体理解能力的基准分为两个子任务。第一个子任务(VideoRefer-Bench-Q)让模型回答关于特定物体的选择题,涵盖基础认知、时序关系、物体间关系、推理和预测五个维度。SWIM取得了78.3%的平均准确率,比之前最好的专门模型VideoRefer-7B高出6.4个百分点,也超过了GPT-4o(71.3%)和规模更大的InternVL2-26B(65.0%)。其中提升最明显的是基础认知(比Qwen2.5-VL-7B高5.8%)和时序关系(高5.3%),这两类任务都需要AI首先精准识别出目标物体才能作答,正好是SWIM改进最核心的能力。
第二个子任务(VideoRefer-Bench-D)要求模型对指定物体进行详细描述,评分维度包括主体对应准确性(描述的是不是指定的那个物体)、外观描述准确性(颜色、形状、纹理是否正确)、时间动作描述准确性(动作、运动是否描述准确)、以及幻觉检测(有没有编造不存在的细节)。SWIM在这四个维度上分别得到4.92、3.85、3.43、2.96分(满分5分),综合平均3.78分,不仅超过了最好的专门模型DAM-8B(3.68分),也远超GPT-4o(3.25分)。其中主体对应性和外观描述的提升最为突出,这直接反映了SWIM在把名词和视觉区域对应方面的改进。
在通用视频理解基准上,SWIM在MVBench上得到62.1分(超过VideoRefer-7B的59.6),在VideoMME上与VideoRefer-7B持平(55.9),在ActivityNet-QA上得到55.6分。这些结果说明,SWIM在专精于精细化物体理解的同时,并没有牺牲通用视频理解能力——一个专注于某项技能的训练方法,没有让AI"偏科"。
六、AI的目光究竟落在哪里:用数字量化注意力精准度
为了更直观地验证SWIM确实改善了注意力分布,研究团队设计了两套专门的评估指标。
第一套是GamePoint@P指标,它衡量的是:在AI注意力最高的前P%像素中,有多少比例落在了目标物体的遮罩范围内?在P=1%时,SWIM的得分是0.392,而基础的Qwen2.5-VL只有0.329,提升了6.3个百分点;在P=5%时提升5.5个百分点;在P=10%时提升4.7个百分点。这意味着SWIM的注意力峰值更准确、更集中,最受关注的那些像素确实更多地落在了目标物体上。
第二套是GamePoint@K指标,衡量的是注意力排名靠前的K个像素点中,有多少属于目标物体。在K从1到100的各个值上,SWIM(0.373~0.375)始终高于Qwen2.5-VL(0.328~0.331),且各个K值下的差距非常稳定。这说明SWIM不只是在最高注意力点上表现更好,而是整体的注意力排序都更加准确可靠。
此外,研究团队还用AP(平均精度)、AUC(曲线下面积)、NSS(归一化扫描路径显著性)和Precision(精确率)四个更标准的视觉显著性指标,对两个模型的注意力图进行了全面比较。四项指标上SWIM全部优于基础模型:AUC从0.62提升到0.67,NSS从0.39提升到0.50,Precision从0.28提升到0.39,AP从0.26提升到0.30。这些数字背后的意思是:SWIM生成的注意力图与真实物体遮罩的重合程度更高,虚假激活(注意力落在非目标区域)更少,区分目标与非目标的能力更强。
七、数据越多越好:SWIM的规模扩展潜力
一个实用的AI方法,除了当下的性能,还需要具备"越喂越好"的潜力——随着数据规模扩大,性能能否持续提升?
研究团队对NL-Refer数据集按照不同规模进行了实验,从3万个样本开始,逐步增加到5万、8万、10万、最终12.5万个完整样本,观察性能变化。结果显示出清晰、单调的上升趋势:3万样本时得分3.23,5万时3.39,8万时3.60,10万时3.69,12.5万时3.78。全程没有出现性能停滞或下降的迹象,而且在12.5万这个当前最大规模处,曲线仍然没有表现出"饱和"的迹象。这意味着如果能获得更多高质量的遮罩标注数据,SWIM的性能还有相当大的提升空间。
八、面对"换个说法"的挑战:鲁棒性测试
现实世界中的用户描述同一个物体时可能用不同的词:有人说"男人",有人说"男性",有人说"男士"。一个真正实用的系统应该在面对这类同义词替换时保持稳定的性能,而不是只认识训练时见过的特定词汇。
为了测试这一点,研究团队把VideoRefer-Bench-D测试集中所有被标记的关键名词替换成同义词,然后重新评测。结果显示,SWIM在同义词干扰下的得分(3.74)仅比原始得分(3.78)低0.04分,降幅极为微小。相比之下,原始Qwen2.5-VL在没有干扰时得分为2.97,加上精确关键词后(相当于给它一点额外的语义线索)得分为3.43,仍然低于SWIM在有同义词干扰时的3.74。这个对比说明SWIM学到的不是死记硬背特定词汇,而是对物体语义的深层理解,这种理解可以泛化到语言表达的自然变化中。
九、实际效果:看得见的区别
除了数字,研究团队也展示了一些具体的对比案例,让SWIM的改进变得非常直观。
在一个描述类任务中,用户让模型描述"视频桌子上那个长方形的木质砧板"。基础的Qwen2.5-VL描述的是旁边的饼干,因为饼干是画面中最显眼的动态物体;而SWIM准确描述了那块砧板,内容与标准答案高度吻合。在两道选择题案例中,SWIM同样选出了正确答案,而基础模型都选错了。这些例子都指向同一个问题:当AI不能准确将文字描述与视觉区域对应时,它会本能地被画面中最显眼的物体"吸引",而忽视用户真正在问的那个目标。
说到底,SWIM做的事情并不是给AI添加了某种神奇的新能力,而是修复了一个长期被忽视的基础问题:当AI读到一个物体名词时,它应该真的"看向"那个物体,而不是漫无目的地扫视整个画面。这个问题之所以之前没有被系统性解决,很大程度上是因为传统的评测方式(问答准确率、描述流畅度)并不能直接暴露注意力分布的缺陷,需要像这篇论文这样把注意力图可视化出来才能发现。
对于普通用户来说,这项研究的意义在于:未来你在使用AI助手时,只需要用自然语言说"帮我关注视频里那个戴红帽子的孩子",AI就能真正把目光和注意力聚焦在那个孩子身上,而不是描述整个场景或者最显眼的背景元素。SWIM的训练方案只需要在训练时提供遮罩,推理使用时完全依靠文字,这意味着它可以直接集成到现有的模型训练流程中,不需要改动模型架构或增加推理时的额外输入。
这项研究的完整论文可以通过arXiv编号2605.18018查阅,代码和NL-Refer数据集也已开源,有兴趣深入了解技术细节的读者可以通过GitHub上的HumanMLLM/SWIM仓库获取。
Q&A
Q1:SWIM训练方法和普通多模态大模型训练有什么区别?
A:普通多模态大模型训练只要求模型输出正确的文字答案,并不管模型内部的注意力是否落在了正确的视觉区域。SWIM在此基础上增加了一个额外的监督信号:当模型读到物体名词时,它的跨模态注意力图必须和预先标注的物体遮罩尽量重合,否则会产生惩罚。这个额外约束迫使模型把名词和对应视觉区域更紧密地绑定在一起,从而在推理时仅凭文字就能精准定位目标物体,不再需要用户额外提供遮罩或标注框。
Q2:NL-Refer数据集和原始VideoRefer数据集有什么不同?
A:原始VideoRefer数据集中,文字描述用占位符``代替目标物体,这个符号对人来说要配合视觉标记才能理解,AI无法从中学习到名词和视觉区域的对应关系。NL-Refer通过GPT-4o处理,把每个``替换成了具体的自然语言描述(比如"那个留胡须的年轻男人"),同时标记出最核心的名词,并保留了与之对应的像素级遮罩。这样AI就能从文字本身直接学习"读到这个词就该看那个区域"的对应关系。
Q3:SWIM在视频以外的图像理解任务上也有效吗?
A:当前论文的实验主要集中在视频理解任务上,训练数据也以视频为主。不过SWIM的核心机制(对跨模态注意力施加遮罩监督)在理论上同样适用于静态图像理解场景,因为图像和视频在模型的注意力计算方式上本质相同。研究团队并未专门测试纯图像场景,但由于基础框架Qwen2.5-VL本身支持图文输入,SWIM的训练策略理论上可以迁移到图像领域,这也是未来研究可以探索的方向。