昊梵体育网

AI看懂"弦外之音": 中科院软件所等机构联合攻克视频隐喻理解难题

这项由中国科学院软件研究所中文信息处理实验室、快手科技、清华大学自动化系等机构联合开展的研究,以预印本形式发表于2026

这项由中国科学院软件研究所中文信息处理实验室、快手科技、清华大学自动化系等机构联合开展的研究,以预印本形式发表于2026年5月,论文编号为arXiv:2605.25461。

当你刷到一段视频,画面里几头穿着燕尾服的猪围坐豪华宴席大快朵颐,镜头切到桌下几只猫在抢食残渣——你很可能一秒钟就明白了:这是在讽刺上层社会挥霍无度,而底层民众艰难求存。这种"看图说话"的能力对人类来说几乎是本能,但对如今最顶尖的人工智能而言,却是一道真正的难关。

研究团队注意到,现有的多模态大语言模型(简称MLLMs,可以理解为"能同时处理图像和语言的AI")在识别视频里的物体、描述画面发生了什么这些基础任务上表现不错,但一旦涉及"这个画面背后想表达什么",AI就开始犯难了。为了系统地研究和解决这个问题,研究团队做了三件事:建立了一套专门用来测试AI隐喻理解能力的标准题库(MetaphorVU-Bench),用这套题库摸清了现有AI的真实水平和短板所在,最后提出了一种叫做MetaphorBoost的方法来帮助AI补足这块短板。

---

一、为什么"看懂弦外之音"这么难

回到那个燕尾服猪的例子。当我们看到这个画面时,大脑会自动完成一系列高难度操作:首先认出画面里有猪、有燕尾服、有宴席、有桌下的猫;接着把"穿燕尾服的猪"这个奇怪组合和"权贵阶层"联系起来,把"桌下抢残渣的猫"和"底层民众"联系起来;最后才能读出画面背后的社会批判。

认知科学把这个过程叫做"跨域映射"——把眼前看见的东西(视觉域)映射到一个完全不同的抽象概念世界(意义域)。对人类来说,这是日积月累的文化熏陶和生活经验帮我们建立起来的直觉。但对AI来说,它在训练时学到的更多是"猪就是猪、宴席就是宴席"这样的字面关系,很少被训练去做这种跨越具象与抽象的联想跳跃。

更麻烦的是,隐喻视频无处不在。社交媒体上的短视频、广告、公益宣传片……大量内容都不是在直白叙事,而是用视觉语言"暗示"更深层的意思。如果AI理解不了这些,它在很多真实应用场景里就会显得"智商不够用"——比如内容理解、情绪分析、舆情研判等等。

---

二、给AI出一套"隐喻理解"考卷

研究团队首先意识到,要衡量AI在这方面的能力,必须先有一套科学、系统的考题。于是他们花了大量精力,从零开始构建MetaphorVU-Bench这套评测基准。

这套题库的源头是快手短视频平台上的海量真实视频。研究团队从数十亿条视频出发,设计了一套四阶段筛选流程,最终精选出860个真正含有隐喻逻辑的视频。第一步,他们先按评论数量过滤,只保留评论超过150条的视频,筛出约7万条;因为评论多往往意味着这个视频引发了观众的深层思考或解读。第二步,用GPT-5分析视频简介、语音识别文字和评论,判断是否存在隐喻逻辑,缩减到1.6万条。第三步,用Gemini-3-Pro这样的多模态AI直接看视频,核实前一步的分析是否符合实际画面,进一步压缩到4000条。最后,由人工团队做最终审核,确认每条视频确实含有清晰的隐喻意图,并标注隐喻类型,最终留下860条视频。

为了让评测有理有据,研究团队还专门构建了一套视频隐喻分类体系,把隐喻手法分成了八种类型。这八种类型并非随意划分,而是扎根于电影学、符号学、表演理论等多个学科的理论基础。

第一类叫"肢体语言",靠角色夸张或具有象征意义的动作来传递含义,比如一个人越来越沮丧的走路姿态。第二类叫"氛围语言",通过画面色调、光线、构图的刻意变化营造情绪,比如画面逐渐变暗来暗示心境低落。第三类叫"文化符号",借助特定文化中约定俗成的象征物,比如放飞孔明灯代表祈愿、升学前途。第四类叫"自然符号",用动植物等自然元素的行为来映射人类情感,比如一只公鸡守在死去母鸡旁边不肯离去,暗喻忠贞的爱情。第五类叫"因果蒙太奇",通过剪辑拼接暗示因果关系,让观众自己推断出逻辑链条,比如把戴上婚戒的镜头和做繁琐家务的镜头接在一起,暗示对婚姻的顾虑。第六类叫"类比蒙太奇",把两组相似但不同的画面并列,引导观众发现它们之间的类比关系,比如把成年人重玩童年游戏和童年动画并列,表达对童年的怀念。第七类叫"超现实叙事",用动画或AI生成的虚构角色和情节来打破物理规律,表达现实难以直述的意思,就像开头那段穿燕尾服的猪的例子。第八类叫"表演性叙事",由真人演员扮演夸张的剧情,通过故事转折揭示讽刺或批判,比如一个强行要求年轻女孩让座的老人最后发现对方是残疾人,讽刺"道德绑架"现象。

在人工标注环节,研究团队要求标注者参考视频简介和观众评论,统一按照"哪些视觉元素传递了哪些隐含含义"的格式撰写解读。每条视频都经过三位标注者的交叉验证,确保答案的准确性和一致性。为了排除字幕和语音内容对标注的干扰,团队还提前用工具对所有视频进行了静音和字幕去除处理,让整个评测完全依赖视觉信息。最终,860条视频的人工标注解读平均每条约114个词,覆盖了教育压力、社会批评、情感关系、人生感悟等大量日常生活话题。

---

三、AI现在的真实成绩单

拿到了这套考题,研究团队邀请了11款主流AI模型参加测试,包括GPT-5、GPT-4o、Gemini-3-Pro、Gemini-2.5-Pro、Qwen3-VL系列、Doubao-1.5-Vision-Pro等闭源产品,以及Qwen2.5-VL-7B、LLaVA-onevision等开源模型。同时还测试了一批专门增强推理能力的方法,包括VideoRFT、Vision-R1、ReAd-R、LTR、ViTCoT,以及思维链提示工程和少样本示例两种经典方法。

为了有参照物,研究团队还从题库中随机抽取了100条视频,让真人来做,把人类的得分作为上限标准。评分方式是用DeepSeek-V3这个大语言模型充当"阅卷老师",对照人工标注的标准答案,给AI的输出评0到10分(折算为百分制展示)。研究还特地验证了这个AI阅卷方式的可靠性:随机抽100条让人类评分和AI评分比较,两者的皮尔逊相关系数达到0.85,统计显著性极高,证明AI阅卷结果是可信的。

成绩单出来后,情况比较明显。真人的平均分是83.4分。表现最好的AI是Gemini-3-Pro,平均63.8分,GPT-5平均63.7分,两者相差不多。其余闭源模型基本在50到62分之间。开源的小模型差距更大,Qwen2.5-VL-7B只有33.8分,LLaVA-onevision也只有38.1分,即便是参数量大得多的Qwen3-VL-235B,平均也只有58.6分。

最好的AI和人类之间差了将近20分,而且这还是在给AI提供了视频标题这个额外信息的前提下。换句话说,现有最顶尖的AI在理解视频隐喻方面,相当于一个只能读懂字面意思、缺乏文化感知力的外行,而不是一个能读懂"弦外之音"的内行。

那些专门增强推理能力的方法表现如何?结论相当令人意外。LTR和ViTCoT这两种专门设计来增强物体识别和事件描述能力的推理方法,反而让基础模型的成绩下降了。思维链提示和少样本示例能带来一些提升,但幅度很有限,平均提升也就两三分。通过大量额外训练数据进行强化学习的VideoRFT和Vision-R1,相比基础模型的进步也微乎其微。这意味着,过去那些专注于"看清楚""描述准确"的AI增强手段,在"理解含义"这件事上几乎无能为力。

---

四、AI到底在哪里卡壳

为了搞清楚AI失分的根本原因,研究团队手动翻查了大量AI的"做题过程"(也就是AI在给出最终答案前的内部推理记录),发现了四种典型的失分模式。

第一种是"认错了东西"——AI识别画面里的视觉元素时出错,把猪认成了别的,或者没认出来是燕尾服。第二种是"漏掉了联系"——AI认出了猪和燕尾服,但完全没有把这个组合和"权贵"这类抽象概念联系起来,直接跳过了。第三种是"联系太浅"——AI能做出一点点联系,但只停留在表面,比如说"猪穿着燕尾服,显得很奇怪,也许表示这只猪想装成贵族",而没有深入到"讽刺真实社会中的权贵群体"这个层次。第四种是"联系方向错了"——AI确实做出了跨域映射,但映射到了错误的概念上,导致解读偏差。

研究团队统计了这四种错误在两个代表性模型(Gemini-3-Pro和Qwen3-VL-8B-Thinking)中的占比,结论非常明确:认错东西只占大约10%到14%,而各种形式的"跨域映射失败"(漏掉、太浅、方向错)加起来占了80%以上。

这个发现非常关键,因为它告诉我们:AI的问题不是"眼神不好",而是"联想能力不够"。过去我们训练AI的时候,大量精力花在提升识别准确率、描述能力上,但对这种从具体到抽象的"意义跳跃"训练得太少。

研究团队还发现,八种隐喻类型中,AI在前四类(肢体语言、氛围语言、文化符号、自然符号)上表现相对较好,在后四类(因果蒙太奇、类比蒙太奇、超现实叙事、表演性叙事)上表现明显更差。原因不难理解:后四类的视频往往包含更多层次的隐喻元素,需要AI做更多、更复杂的跨域映射,而这恰恰是AI的弱点所在。

---

五、给AI装一张"隐喻地图"

既然问题出在跨域映射上,研究团队的解题思路就变得清晰了:与其让AI自己"无中生有"地猜测象征意义,不如给它准备一张现成的"隐喻地图",告诉它哪些具体的东西通常象征哪些抽象的概念。

这张"隐喻地图"就是他们构建的隐喻知识图谱。用图书馆来打个比方:这个知识图谱就像一本超级厚的《隐喻词典》,里面记录了大量"A象征B"的配对关系,而且每个词条之间还有交叉索引,可以顺藤摸瓜地查几层关联。

具体来说,研究团队收集了四个公开的文本隐喻数据集,总共包含约3.7万条带有隐喻含义的文本(其中一部分原本是中文,团队用GPT-5翻译成了英文以保证通用性)。然后用DeepSeek-V3从每段文本里提取"源概念→目标概念"的隐喻配对,比如从"他用锁链束缚了自己的思想"这句话里提取出"锁链→心理束缚"这个配对。最终积累了54,687个概念节点和200,268条边(即概念之间的关联关系),构成了整个隐喻知识图谱。

有了这张地图,研究团队设计了MetaphorBoost这套方法来在AI答题时使用它。整个流程分三步。第一步,让AI先仔细看视频,把画面里出现的所有有意义的视觉元素列出来,比如"猪、燕尾服、宴席、桌下的猫、食物残渣"。第二步,拿着这些关键词去查隐喻知识图谱,沿着关联关系最多走两跳(即两层关联),找出和这些关键词连接最紧密的抽象概念,默认返回前10个最相关的结果,比如"权贵→腐败、挥霍→社会财富、弱者→被剥削"等。第三步,把这些检索到的隐喻概念作为参考提示,让AI结合实际视频内容生成最终的隐喻解读,并在提示里特别说明这些参考只是灵感来源,不能完全依赖。

研究团队还做了一个巧妙的设计:检索时优先返回那些同时与多个关键词都有连接的概念节点,而不是随机返回。这背后的逻辑是:如果一个抽象概念既和"猪"有关,又和"燕尾服"有关,还和"宴席"有关,那它很可能就是这个视频真正想表达的核心意义。这种"多线索汇聚"的方式能有效降低误导性参考的干扰。

---

六、验证效果:确实管用,而且原因清晰

MetaphorBoost在三个不同规模的基础模型上都进行了测试,结果一致有提升。基于Qwen2.5-VL-7B这个小模型,平均分从33.8提升到37.9,提升了4.1分,表现超过了所有专门做了额外训练的强化方法。基于Qwen3-VL-8B-Thinking,从52.0提升到55.9,提升3.9分,超过了所有推理时扩展方法。基于Gemini-3-Pro这个最强基础模型,从63.8提升到66.1,提升2.3分,达到了所有参与测试方法中的最高分。

为了证明提升是真实有效的,而不是偶然的数据波动,研究团队还专门分析了AI在引入MetaphorBoost前后,"漏掉联系"、"联系太浅"、"联系方向错"这三类问题的出现次数变化。结果显示,三类问题在使用MetaphorBoost之后都明显减少。比如在Gemini-3-Pro上,漏掉联系的次数从一个较高数值降低了,联系太浅和方向错误的情况也同步减少。这直接验证了MetaphorBoost确实在帮助AI完成那个关键的"跨域映射"动作,而不只是在做无谓的优化。

研究团队还做了一系列消融实验来验证设计决策的合理性。首先,如果不用外部知识图谱,改成让AI自己问自己来补充联想,效果会下降,说明外部知识的补充是真正有效的,AI自身的知识库在这方面确实有缺口。其次,如果不用图谱结构,改成直接从原始文本数据集里检索,效果也会下降,说明图谱的结构化关系比散乱的文本更有利于准确召回隐喻概念。再者,如果把专门构建的隐喻知识图谱换成通用常识知识图谱ConceptNet,效果同样下降,说明隐喻理解需要的不是普通常识,而是专门的隐喻域知识。

超参数实验也验证了默认设置(最多走两跳、返回10个结果)是相对最优的配置,走一跳或者只返回5个结果都会让效果有所下滑,说明适度的深度和数量能在覆盖面和噪声之间取得较好的平衡。

---

归根结底,这项研究做了一件重要的事:它把"AI能不能理解视频的言外之意"这个模糊的问题,变成了一个可以精确测量、系统分析、针对性改进的工程问题。从建立八类隐喻的分类体系,到筛选860条真实视频并精细标注,再到发现"跨域映射失败"是AI的核心瓶颈,最后用隐喻知识图谱作为认知脚手架给AI补足短板——整个研究形成了一条完整的认知链条。

目前最好的AI与人类之间仍有将近20分的差距,而且MetaphorBoost虽然有效,提升幅度也相对有限,说明这个问题还有很大的探索空间。视频中的隐喻往往高度依赖特定的文化背景,知识图谱目前主要覆盖通用隐喻,对文化特异性的隐喻理解还相对薄弱。未来如何让AI真正"入乡随俗"地理解不同文化语境下的隐喻,可能是这个方向上下一个值得深挖的问题。

对那些关注AI应用的读者来说,这项研究提示了一个现实:当我们把AI用在内容审核、情感分析、视频理解等领域时,需要清醒地意识到,当前的AI对"话外音"的感知能力还相当有限,依赖它来解读含有大量隐喻的内容时需要保持足够的谨慎。有兴趣深入了解全部细节的读者,可以通过arXiv编号2605.25461查阅完整论文。

---

Q&A

Q1:MetaphorVU-Bench这套评测基准是怎么筛选出来的,凭什么说它选的视频质量有保障?

A:MetaphorVU-Bench经过四轮筛选。先按评论数量过滤留下7万条,再用GPT-5分析文字内容压缩到1.6万条,然后用Gemini-3-Pro直接看视频核实到4000条,最后由三名人工标注者逐条审核,任何一人认为视频隐喻不明确就直接剔除,最终留下860条。每条视频的解读也经过"一人写、两人审、三人共同修改直到满意"的流程,并提前做了视频静音和字幕去除,确保评测完全依赖视觉内容。

Q2:MetaphorBoost为什么要用图谱结构,直接搜索文本数据集不行吗?

A:研究团队专门做了对比实验。把隐喻知识图谱换成直接检索原始文本数据集,整体平均分会下降约1.6分。原因在于图谱的结构化关系能同时利用多个关键词之间的交叉连接来锁定最相关的抽象概念,而散乱的文本检索更容易带回噪声信息或不相关的隐喻配对。图谱天然支持多跳查询,可以发现"A→B→C"这样的间接隐喻关联,这是平铺文本做不到的。

Q3:现有AI在哪几种隐喻类型上表现最差,原因是什么?

A:AI在因果蒙太奇、类比蒙太奇、超现实叙事、表演性叙事这四类上表现明显更差,最差的类型得分有时只有30多分,而最好的类型能达到60到70分以上。原因是这四类视频通常包含更多层次的隐喻视觉元素,需要AI同时对多个元素做跨域映射并整合成一个连贯的含义,而前四类相对更依赖单一的象征符号,难度较低。简单说,越复杂的"暗语系统",AI越读不懂。