万卡集群“掉链子”的元凶,有人正面解决了
集群规模一大,网络反而不如小规模稳定,这是很多人踩过的坑。PFC机制下,一个拥塞点能把整个网络拖慢。做过诊断的都知道,最后查出来往往不是硬件坏了,而是流控机制本身的设计缺陷。PFC风暴一开,全网瘫痪,运维半夜被叫起来处理死锁是家常便饭。
信用流控的逻辑不一样:逐跳信用管理,每个发送端维护接收端的信用余额,发前扣减、收后返还——从算法层面杜绝了HoL阻塞的可能。这不是新理论,但国内能在商用网络里大规模落地的确实少见。
中科曙光自研的RDMA引擎走的就是这条路。这不是参数好看不好看的问题,是能不能在万卡规模下稳定跑业务的问题。大模型训练动不动几周,中间断一次损失几十万。流控这事,选对了机制比后期调优重要得多。少一种故障模式,就是少一次训练中断。
PFC风暴 HoL阻塞 RDMA
