近日,中国电信云计算研究院在云存储与数据中心资源管理领域取得研究突破,由汤闻达、王一多、王彦文、吴杰研究团队完成的《Leave No One Behind: Fair and Efficient Tiered Memory Management for Multi-Applications》,王一多、汤闻达、孟令航、李梁、吴杰研究团队完成的《Origami: Efficient ML-Driven Metadata Load Balancing for Distributed File Systems》两篇论文,同时被并行处理领域最老牌的国际顶级会议 ICPP 2025 接收。这两项研究分别聚焦分级内存管理与元数据管理难题,为云基础设施优化提供了创新性解决方案,彰显了中国电信在云计算核心技术领域的前沿探索能力。
在数据中心内存资源优化方向,汤闻达等人针对多租户环境下不同应用间的内存资源竞争问题,提出了工作负载感知的分级内存管理框架。创新性地构建了基于负载特征的用户态内存页面迁移与快速内存容量公平分配机制,从内存资源管理、页面迁移策略设计、页表结构优化到页面迁移机制优化实现了全面创新。有效解决了现有方案中因忽视应用特性差异而陷入“冷页困境”(即在多租负载共置环境下,关键负载的重要页面因访问频率相对较低被误判为“冷”,从而被迁移到慢速内存,导致关键业务性能受损)的问题。
图1:面向多租负载共置的分级内存管理架构示意
框架利用PEBS(Performance Event-Based Sampling)技术实时采集与分析负载的内存页面访问特征,并结合eBPF机制,灵活调整内存页面迁移策略,以适应不同负载的访存特性。特别是在 QoS 保障方面,通过 Fast Tier Hit Ratio 实时度量分级效果与快慢内存容量的动态分配策略,保障高优先级应用的内存访问效率与资源的公平分配。这一技术突破为云计算和大数据场景下的资源隔离与性能优化提供了全新思路,有望在云平台、新型算力网络等场景中实现规模化应用。
王一多等人针对云上分布式存储系统中海量元数据管理的效率瓶颈,提出了机器学习驱动的元数据负载均衡框架 Origami。该框架突破了传统方法仅关注元数据均匀划分的局限性,首次以最小化用户作业完成时间为核心目标,实现均衡的过程中充分考虑了元数据的局部性特征与层次结构。该框架包括实时数据收集、近似最优决策计算、高效模型训练以及模型验证等步骤,最终在负载均衡收益与访问开销之间实现了较好的权衡。
图2:面向元数据负载均衡的模型训练框架Origami整体架构
实验数据表明,Origami 框架有效解决了分布式文件系统中因层次化命名空间和动态负载导致的访问热点问题,相比传统方案大幅降低了用户端到端操作的完成时延。这一成果将智能技术与云存储系统深度融合,未来可广泛应用于云存储、数据中心及泛在存储等场景,为构建低延迟、高并发的存储架构提供了关键技术支撑。
ACM ICPP(International Conference on Parallel Processing)作为并行与分布式计算领域的国际顶级会议(CCF推荐B类),其收录论文需经过国际权威学者的严格评审。本次中国电信云计算研究院同时斩获两项成果,充分体现了其在系统结构、资源管理等方向的研究深度。ICPP 2025将于9月8日—11日在美国圣地亚哥召开,届时我院研究团队将与全球学者共同探讨智能云基础设施的技术前沿。
近日,中国电信云计算研究院在云存储与数据中心资源管理领域取得研究突破,由汤闻达、王一多、王彦文、吴杰研究团队完成的《Leave No One Behind: Fair and Efficient Tiered Memory Management for Multi-Applications》,王一多、汤闻达、孟令航、李梁、吴杰研究团队完成的《Origami: Efficient ML-Driven Metadata Load Balancing for Distributed File Systems》两篇论文,同时被并行处理领域最老牌的国际顶级会议 ICPP 2025 接收。这两项研究分别聚焦分级内存管理与元数据管理难题,为云基础设施优化提供了创新性解决方案,彰显了中国电信在云计算核心技术领域的前沿探索能力。
在数据中心内存资源优化方向,汤闻达等人针对多租户环境下不同应用间的内存资源竞争问题,提出了工作负载感知的分级内存管理框架。创新性地构建了基于负载特征的用户态内存页面迁移与快速内存容量公平分配机制,从内存资源管理、页面迁移策略设计、页表结构优化到页面迁移机制优化实现了全面创新。有效解决了现有方案中因忽视应用特性差异而陷入“冷页困境”(即在多租负载共置环境下,关键负载的重要页面因访问频率相对较低被误判为“冷”,从而被迁移到慢速内存,导致关键业务性能受损)的问题。
图1:面向多租负载共置的分级内存管理架构示意
框架利用PEBS(Performance Event-Based Sampling)技术实时采集与分析负载的内存页面访问特征,并结合eBPF机制,灵活调整内存页面迁移策略,以适应不同负载的访存特性。特别是在 QoS 保障方面,通过 Fast Tier Hit Ratio 实时度量分级效果与快慢内存容量的动态分配策略,保障高优先级应用的内存访问效率与资源的公平分配。这一技术突破为云计算和大数据场景下的资源隔离与性能优化提供了全新思路,有望在云平台、新型算力网络等场景中实现规模化应用。
王一多等人针对云上分布式存储系统中海量元数据管理的效率瓶颈,提出了机器学习驱动的元数据负载均衡框架 Origami。该框架突破了传统方法仅关注元数据均匀划分的局限性,首次以最小化用户作业完成时间为核心目标,实现均衡的过程中充分考虑了元数据的局部性特征与层次结构。该框架包括实时数据收集、近似最优决策计算、高效模型训练以及模型验证等步骤,最终在负载均衡收益与访问开销之间实现了较好的权衡。
图2:面向元数据负载均衡的模型训练框架Origami整体架构
实验数据表明,Origami 框架有效解决了分布式文件系统中因层次化命名空间和动态负载导致的访问热点问题,相比传统方案大幅降低了用户端到端操作的完成时延。这一成果将智能技术与云存储系统深度融合,未来可广泛应用于云存储、数据中心及泛在存储等场景,为构建低延迟、高并发的存储架构提供了关键技术支撑。
ACM ICPP(International Conference on Parallel Processing)作为并行与分布式计算领域的国际顶级会议(CCF推荐B类),其收录论文需经过国际权威学者的严格评审。本次中国电信云计算研究院同时斩获两项成果,充分体现了其在系统结构、资源管理等方向的研究深度。ICPP 2025将于9月8日—11日在美国圣地亚哥召开,届时我院研究团队将与全球学者共同探讨智能云基础设施的技术前沿。