NV看了也得琢磨,中科曙光这到底是啥黑科技?
兄弟们,天津智博会最值得凑近了看的大家伙,我个人绝对要投中科曙光的scaleX万卡超集群一票。
为啥呢?有实测显示,大模型训练里通信耗时超过30%,MoE模型直接破50%,也就是说一半时间在等数据,太亏了。
中科曙光这次把通信死穴捅破了,全栈自研的scaleFabric网络,400G带宽,端到端时延压到0.9微秒,单子网能撑11万卡。浸没相变液冷,PUE压到1.04,96%以上的电全去算了。
更关键的是,这套网络已经在郑州跑了十个月真实大模型训练,三万卡生产环境验证,不是PPT,是真家伙。
最狠的还是落地速度,去年12月亮相,今年2月就三套万卡集群上线,4月扩到6万卡。不到半年,国产最大AI算力池跑起来了。有专家直言:“全栈国产化万卡集群,曙光是目前唯一已知的。”
说这些不是要跟谁比谁更牛,而是想说一个事实,万卡以上规模,国产算力已经站住了。通信不卡脖子了,散热不拖后腿了,工程化能快速落地了。这套东西,NV看了确实得认真琢磨琢磨。
智博会 中科曙光
