从零开始训练模型过程中,微软连续迭代了v2、v3、v4三个约600B参数的MoE模型,要知道600B参数都快和DeepSeek-V3(671B)一个量级了!
关键是,这三个模型基本就是拿来测试用的,并且分别做了这些迭代:
v2:用于验证新硬件、训练框架、容错等基础设施。
v3:主要优化路由(如切换到dropless MoE),继续基础设施测试。
v4:增加专家数、引入LatentMoE等,进一步测试更大规模和复杂架构。
这个过程消耗的算力可想而知!第一次这么直观地感受到,前沿AI已经是靠拼资源的游戏了。微软

