中国电信云计算研究院

中国电信首席科学家、云计算研究院院长吴杰指导三项学术成果被INFOCOM会议录用

2025-12-11

近日，由中国电信首席科学家、云计算研究院院长吴杰教授指导的三项学术成果被国际顶级学术会议IEEE INFOCOM录用。三篇论文的指导教授均为吴杰院长的学生，相关工作在吴杰院长的悉心指导下完成，分别与中国科学技术大学、南京大学、吉林大学合作，涵盖移动众包感知、网络区域划分优化和大模型训练容错等多个前沿方向，充分展现了云计算研究院在云网融合领域的创新能力和学术影响力。

第一篇论文“Age-of-Information-Aware Mobile Crowdsensing for Uncertain Event Capture”由吴杰院长与中国科学技术大学肖明军教授团队合作，针对移动众包感知系统中不确定事件捕获的场景，提出了一种基于信息新鲜度优化的调度方法。作者将问题建模为未知转移概率的受约束restless bandit问题，并提出了结合Thompson采样和Drift-Plus-Penalty方法的TS-DPP算法，以在预算限制下最小化系统中所有事件的加权AoI。理论分析证明，该算法实现了次线性Bayesian regret，且大量仿真实验表明，TS-DPP算法在实际和合成数据集上均优于传统基线方法，有效应对了事件不确定性和预算约束带来的挑战。

图1：事件捕捉的众包感知示意图

第二篇论文“ReOpt: Near-Optimal Region Division for Low-Latency Regional Anycast”由吴杰院长与南京大学郑嘉琦教授团队合作，提出了一种面向低延迟的区域Anycast优化框架ReOpt。该框架旨在解决现有区域Anycast因地理划分刚性和多前缀公告导致的路由次优与路径膨胀问题。作者将区域划分建模为延迟最小化的优化问题，证明其NP难，并设计了具备近似最优理论保证的多项式时间算法。ReOpt通过实时测量客户端与站点的延迟，智能调整多前缀公告策略，并结合国家级区域划分，动态优化客户端到站点的分配。实验在真实Anycast测试平台和模拟环境中表明，ReOpt能显著降低客户端延迟，优于现有地理划分方法，兼顾性能提升与运维简化。

图2：用户路由示意图

第三篇论文“Rehabilitating over Recomputing: A Novel Failure Recovery Method for Large Model Training”与吉林大学李洪亮教授团队合作，针对大规模深度神经网络模型分布式训练过程中传统基于检查点和重计算的容错方法成本高、恢复慢的问题，提出了一种全新的预测辅助自恢复（CPSR）机制。CPSR通过在每个训练设备上部署轻量级预测器，利用常规检查点数据，预测故障前的训练状态，从而在发生故障时无需昂贵的重计算即可“自我修复”模型进度。文章建立了预测恢复的量化成本模型，提出了优化的检查点间隔策略，实现了检查点频率与恢复精度之间的平衡。大量实验证明，CPSR在降低GPU内存占用的同时，平均将恢复成本降低了41.66%，显著优于现有主流方法。

图3：CPSR架构图

这三项成果充分体现了云计算研究院在智能网络、云计算及人工智能基础设施领域的持续创新能力。相关研究不仅为中国电信核心技术积累提供了坚实基础，也有望在实际业务系统中进一步提升可靠性、性能和运维水平。

IEEE INFOCOM是信息与通信领域最具影响力的国际学术会议之一，每年吸引全球顶尖高校、科研机构和企业的最新成果投稿。会议聚焦网络体系结构、协议、算法、系统实现等多个前沿方向，论文录用具有极高的学术认可度。