中国电信云计算研究院在非平稳在线学习与智能决策理论方面取得新进展 论文被IEEE ICASSP 2026录用
2026-02-02

近日,中国电信云计算研究院在面向动态环境的在线学习与智能决策理论研究方面取得新进展。由云计算研究院研究员孟令航与中国电信首席科学家、云计算研究院院长吴杰教授合作完成的两篇论文《Tight Regret Bounds for Mean-Reverting Linear Bandits via Recursive State Estimation》和《Change Detection Methods for Non-stationary Stochastic Linear Bandits》均被信号处理领域主要国际学术会议IEEE ICASSP 2026(International Conference on Acoustics, Speech and Signal Processing)录用。两项工作围绕“云网系统中的非平稳不确定性”这一关键挑战,提出统一的建模与算法框架,从理论界限到可实现算法给出系统性突破。

随着云计算与网络平台向超大规模、强动态与多目标协同演进,系统状态(如业务负载、网络拥塞、链路质量、服务性能等)往往呈现随时间漂移甚至突变的特征。传统在线学习/多臂老虎机(Bandit)研究多依赖“环境稳定”或“无结构变化”的特点,难以充分刻画现实系统的时间规律,进而导致学习效率与决策收益受限。针对这一问题,研究团队聚焦随机线性 Bandit 的两类典型非平稳形态,在动态环境下更快、更稳、更有理论保证地完成在线估计与决策,为云网场景中的实时调度、资源分配与自适应控制提供可落地的方法基础。

云网应用中的两类非平稳变化与在线学习应对策略

在第一篇论文中,团队研究了均值回归(mean-reverting)驱动的非平稳线性 Bandit,相较于仅用总变化量刻画非平稳性的既有工作,该研究显式利用均值回归动力学结构,给出了遗憾(Regret)下界,并进一步提出基于递归状态估计的算法。理论结果表明,所提方法能够实现与下界近乎匹配的遗憾上界。第二篇论文进一步面向云网系统中常见的突发性变化,研究分段平稳(piecewise stationary)的随机线性Bandit。该场景下的难点在于如何在保证学习效率的同时快速发现变化并重启/修正模型。论文提出了线性Bandit+变化检测的算法框架,环境变化会在多个动作回报上同步反映,因此无需对全部动作进行代价高昂的强制探索。理论上,论文给出了与误报次数、检测延迟显式关联的遗憾上界,并证明在合理设置下LBCD-AW可达到对时间维度近乎最优的遗憾量级。

两篇工作分别从“利用动态结构”与“快速检测突变”两条路线,补齐了非平稳在线学习在理论界限与方法设计上的关键拼图,为研究院推进智能算法赋能云网平台的长期布局提供了坚实的基础理论与可实现算法组件。

未来,中国电信云计算研究院将继续面向云网平台真实需求,进一步探索更复杂动态模型、更大规模动作空间与多主体协同等场景下的在线学习理论与算法,并推动相关研究与云网调度、资源编排、网络自优化等关键业务环节深度结合,为构建高可靠、低时延、强自适应的智能泛在云体系持续贡献创新成果。

中国电信云计算研究院在非平稳在线学习与智能决策理论方面取得新进展 论文被IEEE ICASSP 2026录用
2026-02-02

近日,中国电信云计算研究院在面向动态环境的在线学习与智能决策理论研究方面取得新进展。由云计算研究院研究员孟令航与中国电信首席科学家、云计算研究院院长吴杰教授合作完成的两篇论文《Tight Regret Bounds for Mean-Reverting Linear Bandits via Recursive State Estimation》和《Change Detection Methods for Non-stationary Stochastic Linear Bandits》均被信号处理领域主要国际学术会议IEEE ICASSP 2026(International Conference on Acoustics, Speech and Signal Processing)录用。两项工作围绕“云网系统中的非平稳不确定性”这一关键挑战,提出统一的建模与算法框架,从理论界限到可实现算法给出系统性突破。

随着云计算与网络平台向超大规模、强动态与多目标协同演进,系统状态(如业务负载、网络拥塞、链路质量、服务性能等)往往呈现随时间漂移甚至突变的特征。传统在线学习/多臂老虎机(Bandit)研究多依赖“环境稳定”或“无结构变化”的特点,难以充分刻画现实系统的时间规律,进而导致学习效率与决策收益受限。针对这一问题,研究团队聚焦随机线性 Bandit 的两类典型非平稳形态,在动态环境下更快、更稳、更有理论保证地完成在线估计与决策,为云网场景中的实时调度、资源分配与自适应控制提供可落地的方法基础。

云网应用中的两类非平稳变化与在线学习应对策略

在第一篇论文中,团队研究了均值回归(mean-reverting)驱动的非平稳线性 Bandit,相较于仅用总变化量刻画非平稳性的既有工作,该研究显式利用均值回归动力学结构,给出了遗憾(Regret)下界,并进一步提出基于递归状态估计的算法。理论结果表明,所提方法能够实现与下界近乎匹配的遗憾上界。第二篇论文进一步面向云网系统中常见的突发性变化,研究分段平稳(piecewise stationary)的随机线性Bandit。该场景下的难点在于如何在保证学习效率的同时快速发现变化并重启/修正模型。论文提出了线性Bandit+变化检测的算法框架,环境变化会在多个动作回报上同步反映,因此无需对全部动作进行代价高昂的强制探索。理论上,论文给出了与误报次数、检测延迟显式关联的遗憾上界,并证明在合理设置下LBCD-AW可达到对时间维度近乎最优的遗憾量级。

两篇工作分别从“利用动态结构”与“快速检测突变”两条路线,补齐了非平稳在线学习在理论界限与方法设计上的关键拼图,为研究院推进智能算法赋能云网平台的长期布局提供了坚实的基础理论与可实现算法组件。

未来,中国电信云计算研究院将继续面向云网平台真实需求,进一步探索更复杂动态模型、更大规模动作空间与多主体协同等场景下的在线学习理论与算法,并推动相关研究与云网调度、资源编排、网络自优化等关键业务环节深度结合,为构建高可靠、低时延、强自适应的智能泛在云体系持续贡献创新成果。