【海外评测DeepSeek-V4：智能体任务排名开源第一幻觉率上升、Token

2026-04-25 16:11:28 爱股轻骑兵财经

【海外评测DeepSeek-V4：智能体任务排名开源第一幻觉率上升、Token消耗大】4月24日， DeepSeek-V4预览版正式发布并同步开源，号称在Agent能力、世界知识与推理性能三大维度达到国内及开源领域领先水平。DeepSeek-V4分为Pro与Flash两个版本，均支持百万（1M）token超长上下文。两个版本均大幅降低了对计算和显存的需求，将每个标记的推理FLOP降低 73%，并将KV缓存内存占用降低90%。 4月24日，全球最大AI模型应用程序编程接口聚合平台OpenRouter的数据显示，V4-Flash的调用量达270亿Token，V4-Pro为47.9亿Token，但没有登上排行榜。DeepSeek-V4发布后，主流评测平台进行了能力测试和排名。评测机构对DeepSeek-V4进行了推理能力专项测评。在智能体任务表现方面，V4-Pro在真实场景智能体工作任务中，性能位居所有开源权重模型首位，得分1554。 DeepSeek-V4知识储备升级，但幻觉发生率上升。相较于V3.2的幻觉率（82%），V4两款模型的幻觉问题突出：V4-Pro幻觉率为94%、V4-Flash幻觉率为96%，意味着模型在未知问题场景下，几乎都会强行生成答案。完成标准测评流程，V4-Pro输出Token消耗量达1.9亿，属于本次测评中Token消耗最高的模型之一；V4-Flash消耗进一步攀升至2.4亿Token。即便定价偏低，高额的Token消耗仍是V4-Pro综合使用成本高于其他开源模型的核心原因。（每经）