昊梵体育网

ServiceNow突破:AI推理实现类人高效智能思考能力提升突破

这项由ServiceNow研究院领导的研究发表于2024年的《神经信息处理系统大会》(NeurIPS),并已在arXiv

这项由ServiceNow研究院领导的研究发表于2024年的《神经信息处理系统大会》(NeurIPS),并已在arXiv平台发布,论文编号为arXiv:2604.02007v1。有兴趣深入了解的读者可以通过该论文编号查询完整论文。这项研究专门解决了一个困扰AI开发者的难题:如何让AI模型在解决复杂问题时既要足够聪明,又不能过度冗长地"思考"。

考虑这样一个场景:你正在做一道数学题,对于简单的加法运算,你会快速得出答案;但对于复杂的几何证明,你需要更多时间来思考和推理。然而,目前的AI模型却往往不知道何时该快速回答,何时该深度思考,经常会在简单问题上"想太多",浪费大量计算资源。ServiceNow研究院开发的Apriel-Reasoner模型就是为了解决这个问题而诞生的。

这个名为Apriel-Reasoner的AI模型可以说是AI推理领域的一次重要突破。研究团队在一个名为Apriel-Base的15亿参数基础模型上,通过一种称为"强化学习与可验证奖励"(RLVR)的训练方法,让模型学会了如何根据问题难度来调整思考的深度。这就好比训练一个学生,让他们学会在面对不同难度的考试题目时,合理分配时间和精力。

研究团队面临的第一个挑战是如何让AI模型同时掌握多个不同领域的知识。传统的做法通常是逐个训练不同领域,但这样做容易导致"学了新的忘了旧的"问题。研究团队创新性地采用了同时训练多个领域的方法,涵盖了数学推理、代码生成、指令遵循、逻辑谜题和函数调用五个重要领域。这种做法的挑战在于,不同领域的训练数据生成速度差异很大,就像不同学科的作业难易程度不同,学生完成的速度也不一样。

为了解决这个问题,研究团队开发了一种"自适应领域采样"机制。这个机制的工作原理类似于一个智能调度器,它会实时监控各个领域的训练进度,确保每个领域都能得到适当的关注。当某个领域的训练数据不足时,系统会自动增加该领域的采样权重;相反,如果某个领域的数据过多,系统会相应降低其权重。这种动态平衡机制确保了模型在各个领域都能获得均衡的学习机会。

更值得关注的是,研究团队还创新性地开发了一种"难度感知长度惩罚"机制。在传统的AI训练中,模型通常会受到固定的"啰嗦惩罚"——也就是说,如果模型回答过长,就会被扣分。但这种一刀切的做法并不合理,因为简单问题确实应该简洁回答,而复杂问题则需要更详细的推理过程。

这个新机制的工作原理相当巧妙:当模型面对一个问题时,系统会先让多个"AI大脑"同时尝试解决这个问题,然后根据成功率来判断问题的难度。如果大部分"AI大脑"都能轻松解决,说明这是个简单问题,此时模型如果回答过长就会受到严厉的"啰嗦惩罚"。相反,如果大部分"AI大脑"都觉得困难,系统就会放松长度限制,允许模型进行更深入的思考。

实验结果展现了Apriel-Reasoner的优异表现。研究团队在四个权威测试基准上对模型进行了全面评估,包括AIME 2025数学竞赛、GPQA研究生水平科学问答、MMLU-Pro多领域知识推理,以及LiveCodeBench编程能力测试。结果显示,Apriel-Reasoner不仅在准确性上超越了同等规模的其他AI模型,更重要的是,它生成的回答比其他模型短30%到50%。

具体来说,在AIME 2025数学竞赛中,Apriel-Reasoner达到了78.3%的准确率,显著超过了基础模型的73.3%,同时回答长度比竞争对手Nemotron-Cascade短了41%。在编程能力测试LiveCodeBench中,虽然准确率与Nemotron-Cascade相当,但Apriel-Reasoner生成的代码长度不到对手的一半,这意味着更快的执行速度和更低的计算成本。

研究团队还深入分析了模型回答变短的原因。他们发现,Apriel-Reasoner并没有减少推理步骤的数量,而是让每个推理步骤变得更加精炼。通过详细的步骤分析,研究人员发现经过强化学习训练的模型显著减少了"无意义重复"的内容,同时增加了高质量的非线性推理行为,比如验证结果、回溯错误路径、设定子目标等。这些改进使得模型的思考过程更加高效和结构化。

这项研究的实际意义远远超出了学术范围。在实际应用中,AI模型的推理成本直接影响服务提供商的运营费用和用户的使用体验。一个能够"聪明地偷懒"的AI模型,在保持高准确率的同时显著降低计算成本,这对于大规模AI服务的商业化部署具有重要价值。无论是在线教育平台的智能答疑系统,还是代码助手工具,都能从这种效率提升中受益。

更令人印象深刻的是,虽然Apriel-Reasoner在训练时只能生成最多16000个词汇的回答,但在实际测试中它能够很好地处理32000个词汇的长回答任务。这种"举一反三"的能力表明,模型真正学会了如何合理控制回答长度,而不是简单地记住了固定的长度限制。

研究团队还特别注重研究的可重现性。他们详细公开了所有训练配置、数据集选择和超参数设置,甚至连训练过程中的各种技术细节都毫无保留地分享。这种开放态度为其他研究者提供了宝贵的参考,有助于推动整个AI推理领域的发展。

值得注意的是,这项研究采用的PipelineRL训练系统允许模型在生成回答的同时进行学习更新,这种"边做边学"的方式大大提高了训练效率。就像一个学生在做练习题的同时,老师在旁边实时给出指导和纠正,使学习过程更加高效。

从技术角度来看,Apriel-Reasoner使用的GSPO(群体序列策略优化)算法解决了传统强化学习算法的一个关键问题:如何在序列级别的奖励和词汇级别的优化之间建立有效连接。传统算法往往在这个层面转换上出现问题,导致训练不稳定。GSPO通过在序列层面计算重要性权重,有效解决了这个技术难题。

这项研究的成功也验证了多领域联合训练的有效性。研究团队发现,相比于只训练数学和编程两个领域,包含所有五个领域的训练方案在各个测试基准上都表现更好。这说明不同领域的知识之间存在正向的相互促进作用,就像学习多种技能能够相互启发,提升整体能力一样。

说到底,Apriel-Reasoner的成功在于它找到了AI推理的"黄金平衡点"——既要保证思考的深度和准确性,又要避免不必要的冗长。这种平衡不仅提升了模型的实用性,也为未来的AI系统设计提供了重要启示。随着AI技术在各行各业的深入应用,这种既聪明又高效的AI推理能力将成为决定AI系统实用价值的关键因素。

对于普通用户而言,这意味着未来的AI助手将能够更快地给出高质量的回答,无论是解答学习问题、协助编程工作,还是处理日常事务,都能在保证准确性的前提下显著提升响应速度。这种技术进步最终将转化为更好的用户体验和更低的使用成本,让高质量的AI服务变得更加普及和实用。

Q&A

Q1:Apriel-Reasoner与其他AI推理模型的主要区别是什么?

A:Apriel-Reasoner的最大特点是能够根据问题难度智能调节回答长度,就像人类在面对不同难度问题时会调整思考深度一样。它使用"难度感知长度惩罚"机制,让模型在简单问题上给出简洁回答,在复杂问题上进行深入推理,而不是像其他模型那样对所有问题都采用固定的回答模式。

Q2:这个AI模型如何判断问题的难度?

A:系统会让多个AI同时尝试解决同一个问题,然后根据成功率来判断难度。如果大部分AI都能轻松解决,说明问题简单,此时模型会被要求给出简洁回答。如果大部分AI都觉得困难,系统就会允许模型进行更详细的推理,类似于考试中根据题目难度合理分配时间。

Q3:Apriel-Reasoner在实际应用中有什么优势?

A:最直接的优势是在保持高准确率的同时显著降低计算成本。实验显示它的回答比同类模型短30-50%,这意味着更快的响应速度和更低的运行费用。对用户来说就是AI助手回答更快更精准,对服务商来说则是运营成本大幅降低,最终实现双赢。