真的被这一幕干沉默了……

2026-06-04 15:46:31 量子位置科技

最近微软推出一系列自研模型，其技术报告里面一张表格直接把我看呆了：

从零开始训练模型过程中，微软连续迭代了v2、v3、v4三个约600B参数的MoE模型，要知道600B参数都快和DeepSeek-V3（671B）一个量级了！

关键是，这三个模型基本就是拿来测试用的，并且分别做了这些迭代：

v2：用于验证新硬件、训练框架、容错等基础设施。

v3：主要优化路由（如切换到dropless MoE），继续基础设施测试。

v4：增加专家数、引入LatentMoE等，进一步测试更大规模和复杂架构。

这个过程消耗的算力可想而知！第一次这么直观地感受到，前沿AI已经是靠拼资源的游戏了。微软