中国电信云计算研究院与北京交通大学在IEEE Transactions on Reliability发表通信算法最新研究成果,提出冗余分层环全规约算法
2026-02-27

近日,中国电信云计算研究院与北京交通大学在可靠性工程领域国际权威期刊IEEE Transactions on Reliability上联合发表题为《Redundant Hierarchical Ring All-Reduce in Hypercubes》的研究成果。该论文针对大规模分布式训练中的梯度同步瓶颈,首次提出面向超立方体拓扑的冗余分层环全规约算法(RHRA),通过拓扑感知与冗余控制的协同设计,在提升通信效率的同时显著增强高故障风险环境下的传输可靠性。

以 Q_6 为例,展示了其 3 层圈分解的示意图

随着大语言模型规模持续扩张,分布式训练中的通信开销已成为关键瓶颈。传统全规约算法在超立方体网络中难以充分利用其并行结构优势,且面临链路故障与数据损坏的挑战。针对上述问题,研究团队基于n-维超立方体Q_n的图论特性,首先提出优化分层环全规约算法(OHRA),利用超立方体可分解为多层边不交环的性质,在多个层次中并发执行数据分片传输,极大提升了边利用率与负载均衡能力。团队进一步证明了OHRA算法的最优分层数:当n为偶数时为n/2,奇数时为(n-1)/2。在此基础上,团队提出核心创新成果——冗余分层环全规约算法(RHRA),将冗余机制从传统容错手段扩展为可调性能参数,根据带宽与数据量动态调整传输策略,以适度增加数据量为代价换取通信跳数的大幅削减。在Q_14网络环境下的实验表明,RHRA通过带宽自适应调节冗余水平,在最优配置下实现了超过99%的传输可靠性,并揭示了冗余水平与系统故障率的内在关联。

该研究由中国电信集团首席科学家、云计算研究院院长吴杰教授与北京交通大学博士生导师郝荣霞教授共同指导,博士生郭慧媚在中国电信云计算研究院实习期间与中国电信云计算研究院全硕主任研究员共同合作完成。该成果展示了云计算研究院在图论、分布式系统与可靠性工程交叉领域的前沿探索能力,为构建高效、可靠、可扩展的分布式训练基础设施提供了关键技术支撑。

IEEE Transactions on Reliability是可靠性工程领域的国际权威期刊,属于中国计算机学会(CCF)推荐的B类期刊,发表的论文由IEEE Xplore收录,并被SCIE、EI等数据库检索。

中国电信云计算研究院与北京交通大学在IEEE Transactions on Reliability发表通信算法最新研究成果,提出冗余分层环全规约算法
2026-02-27

近日,中国电信云计算研究院与北京交通大学在可靠性工程领域国际权威期刊IEEE Transactions on Reliability上联合发表题为《Redundant Hierarchical Ring All-Reduce in Hypercubes》的研究成果。该论文针对大规模分布式训练中的梯度同步瓶颈,首次提出面向超立方体拓扑的冗余分层环全规约算法(RHRA),通过拓扑感知与冗余控制的协同设计,在提升通信效率的同时显著增强高故障风险环境下的传输可靠性。

以 Q_6 为例,展示了其 3 层圈分解的示意图

随着大语言模型规模持续扩张,分布式训练中的通信开销已成为关键瓶颈。传统全规约算法在超立方体网络中难以充分利用其并行结构优势,且面临链路故障与数据损坏的挑战。针对上述问题,研究团队基于n-维超立方体Q_n的图论特性,首先提出优化分层环全规约算法(OHRA),利用超立方体可分解为多层边不交环的性质,在多个层次中并发执行数据分片传输,极大提升了边利用率与负载均衡能力。团队进一步证明了OHRA算法的最优分层数:当n为偶数时为n/2,奇数时为(n-1)/2。在此基础上,团队提出核心创新成果——冗余分层环全规约算法(RHRA),将冗余机制从传统容错手段扩展为可调性能参数,根据带宽与数据量动态调整传输策略,以适度增加数据量为代价换取通信跳数的大幅削减。在Q_14网络环境下的实验表明,RHRA通过带宽自适应调节冗余水平,在最优配置下实现了超过99%的传输可靠性,并揭示了冗余水平与系统故障率的内在关联。

该研究由中国电信集团首席科学家、云计算研究院院长吴杰教授与北京交通大学博士生导师郝荣霞教授共同指导,博士生郭慧媚在中国电信云计算研究院实习期间与中国电信云计算研究院全硕主任研究员共同合作完成。该成果展示了云计算研究院在图论、分布式系统与可靠性工程交叉领域的前沿探索能力,为构建高效、可靠、可扩展的分布式训练基础设施提供了关键技术支撑。

IEEE Transactions on Reliability是可靠性工程领域的国际权威期刊,属于中国计算机学会(CCF)推荐的B类期刊,发表的论文由IEEE Xplore收录,并被SCIE、EI等数据库检索。