万卡集群“掉链子”的元凶，有人正面解决了集群规模一大，网络反而不如小规模稳定，

万卡集群“掉链子”的元凶，有人正面解决了
集群规模一大，网络反而不如小规模稳定，这是很多人踩过的坑。PFC机制下，一个拥塞点能把整个网络拖慢。做过诊断的都知道，最后查出来往往不是硬件坏了，而是流控机制本身的设计缺陷。PFC风暴一开，全网瘫痪，运维半夜被叫起来处理死锁是家常便饭。
信用流控的逻辑不一样：逐跳信用管理，每个发送端维护接收端的信用余额，发前扣减、收后返还——从算法层面杜绝了HoL阻塞的可能。这不是新理论，但国内能在商用网络里大规模落地的确实少见。
中科曙光自研的RDMA引擎走的就是这条路。这不是参数好看不好看的问题，是能不能在万卡规模下稳定跑业务的问题。大模型训练动不动几周，中间断一次损失几十万。流控这事，选对了机制比后期调优重要得多。少一种故障模式，就是少一次训练中断。
PFC风暴 HoL阻塞 RDMA