昊梵体育网

【海外评测DeepSeek-V4:智能体任务排名开源第一 幻觉率上升、Token

【海外评测DeepSeek-V4:智能体任务排名开源第一 幻觉率上升、Token消耗大】4月24日, DeepSeek-V4预览版正式发布并同步开源,号称在Agent能力、世界知识与推理性能三大维度达到国内及开源领域领先水平。DeepSeek-V4分为Pro与Flash两个版本,均支持百万(1M)token超长上下文。两个版本均大幅降低了对计算和显存的需求,将每个标记的推理FLOP降低 73%,并将KV缓存内存占用降低90%。 4月24日,全球最大AI模型应用程序编程接口聚合平台OpenRouter的数据显示,V4-Flash的调用量达270亿Token,V4-Pro为47.9亿Token,但没有登上排行榜。DeepSeek-V4发布后,主流评测平台进行了能力测试和排名。评测机构对DeepSeek-V4进行了推理能力专项测评。在智能体任务表现方面,V4-Pro在真实场景智能体工作任务中,性能位居所有开源权重模型首位,得分1554。 DeepSeek-V4知识储备升级,但幻觉发生率上升。相较于V3.2的幻觉率(82%),V4两款模型的幻觉问题突出:V4-Pro幻觉率为94%、V4-Flash幻觉率为96%,意味着模型在未知问题场景下,几乎都会强行生成答案。完成标准测评流程,V4-Pro输出Token消耗量达1.9亿,属于本次测评中Token消耗最高的模型之一;V4-Flash消耗进一步攀升至2.4亿Token。即便定价偏低,高额的Token消耗仍是V4-Pro综合使用成本高于其他开源模型的核心原因。(每经)