中国电信云计算研究院

提出首个分布式检索增强生成框架，中国电信与上海交通大学云计算联合实验室论文被MobiHoc 2025接收

2025-09-05

近日，中国电信云计算研究院与上海交通大学云计算联合实验室在大模型端云协同推理方向取得重要进展，其研究团队的论文《DRAGON:Enhancing On-Device Model Performance with Distributed Retrieval-Augmented Generation》被移动网络与计算领域的国际顶级会议——MobiHoc 2025（International Symposium on Theory,Algorithmic Foundations,and Protocol Design for Mobile Networks and Mobile Computing）正式接收。该研究聚焦解决个性化隐私文档与大规模通用知识的端云分布式存储与集中式推理之间的结构性矛盾，首次提出端云分布式检索增强生成框架，实现隐私保护与性能优化的协同突破。

近期，Phi-4-mini、Qwen2.5-1.5B等轻量化模型架构不断涌现，为大语言模型在资源受限边缘设备中高效部署提供了可能，但其在综合复杂任务上的推理性能与千亿参数大模型仍然存在显著差距。检索增强生成（RAG）作为一种颇具前景的解决方案，可通过引入外部知识库以增强模型表现，而无需依赖计算密集型的端侧模型重训练。然而，现有RAG系统大多基于集中式架构，而实际应用中大规模通用知识库与用户私有上下文文档通常分别存储于云端与边缘设备端，数据的物理分布与计算架构间存在结构性失配。

为解决这一难题，电信首席科学家/云计算研究院院长吴杰教授和黄潇瑶研究员，上海交通大学计算机学院的陈贵海教授、常务副院长吴帆教授、郑臻哲教授及刘尚育博士共同组建科研团队，提出一种分布式RAG框架——DRAGON，协同利用通用知识与个性化知识提升端侧轻量化模型性能，同时有效避免用户文档的隐私泄露风险。DRAGON将多文档RAG依全概率公式解耦为端云两路并行生成过程，并采用投机聚合算法实现两侧“持续生成、异步聚合”以避免频繁的端云输出同步带来的通信时延，配合贪心调度算法自适应网络状态确定最优聚合位置，实现端云通信与解码时延的良好覆盖。在真实硬件测试平台上的评估表明，DRAGON实现了显著性能提升，对网络延迟有良好鲁棒性，首token时延额外开销可忽略不计。

图1：DRAGON整体架构图

ACM MobiHoc（International Symposium on Theory,Algorithmic Foundations,and Protocol Design for Mobile Networks and Mobile Computing）是移动网络与移动计算领域的国际顶级学术会议之一（CCF推荐B类），以评审严谨、议题前沿著称，既强调对已有工作的深化与理论突破，也高度关注网络与系统新兴方向的创新性探索。本次入选论文聚焦大模型这一前沿研究领域，针对端侧轻量化模型在复杂综合任务中性能受限的关键问题展开深入探索，创新性地提出分布式检索增强生成框架，获得了审稿人的高度评价，充分彰显了产学研协同创新的显著成效。未来，团队将继续秉持"前沿探索与应用驱动相结合"的研究理念，持续深化理论研究与产业实践的融合创新，为推动新一代云计算系统发展贡献力量。