编写单位
中科驭数(北京)
科技有限公司
处理器芯片全国
重点实验室
中国计算机学会集成
电路设计专业委员会
白皮书目录
一、云计算发展趋势
1.1 云计算系统已经成为数字世界的“操作系统”
1.2 AI 产业催生高性能云计算需求
1.3 IaaS on DPU(IoD) 算力底座技术路线
1.4 IoD 高性能云计算应用范式
二、云计算业务模型分析
2.1 当前主流云计算体系结构
2.2 计算业务分析
2.3 网络业务分析
2.4 存储业务分析
2.5 安全业务分析
2.6 平台服务业务分析
三、高性能云计算基础设施建设路径
3.1 通用算力技术分析
3.2 智算算力技术分析
3.3 云计算网络技术分析
3.4 云计算存储技术分析
3.5 云计算安全技术分析
3.6 云计算服务治理技术分析
3.7 IaaS on DPU(IoD) 高性能云计算全景
四、高性能云计算系统架构持续演进
4.1 高性能云计算可观测性建设
4.2 轻量级虚拟化系统演进架构革新
4.3 “一云多芯”系统融合
五、高性能云计算为 PaaS 服务赋能
5.1 高性能大数据计算服务
5.2 高性能中间件服务
5.3 高性能数据库服务
六、未来展望
内容摘要

         DPU 是当下算力基础设施的核心创新之一。如果把 CPU 比做大脑,那么 GPU 就好比是肌肉,而 DPU 就是神经中枢。CPU 承载了应用生态,提供了通用型算力;GPU 提供了高密度各类精度的算力,特别是在智算领域,对系统算力大小有决定性作用;DPU负责数据在各种 CPU 之间、CPU 与 GPU、以及 GPU 与 GPU 之间高效流通,很大程度上决定了系统是否能协同工作。

         DPU 作为数据中心的第三颗“主力芯片”,主要通过其专用处理器优化数据中心的网络、存储、安全等处理性能,助力服务器运行效率显著提升,有效降低成本。因此,在新型数据中心建设时,围绕 DPU 构建数据中心网络的基础设施,在其上挂载了各种计算、存储资源的节点,对于系统的资源弹性、运行效率、性能都大有益处。但是这种使用方式的变化,需要对现有云计算架构进行一定程度的变革,才能充分发挥出 DPU的优势。云计算中的头部企业 AWS 与阿里云在 DPU 的应用方面也有成功案例,借助其软硬件全栈自研的优势,快速完成了云计算系统的改造工作,实现了 DPU 大规模落地部署,在降低自身运营成本的同时为客户提供更好的使用体验,并产生了可观的经济效益。这种正向循环促进了相关技术栈的快速迭代与成熟,也帮助他们发展成为云计算业务领域的领军企业。

         随着众多芯片厂商投身到 DPU 技术领域后,业界对 DPU 的产品形态定义逐渐清晰,DPU 的技术标准也在不断完善。从此 DPU 不再是行业巨头的“专享”技术,基础设施与云计算相关产业参与者都在寻求一种简单高效的方法,将 DPU 的优势运用到自身业务系统之中,例如 Red Hat、VMware、Palo Alto 等公司纷纷推出相关解决方案。这些方案背后共同的本质思想是:将云计算的 IaaS 层组件从服务器侧卸载后围绕 DPU 构筑高性能算力底座,与 AWS、阿里云的技术路线不谋而合。

         我们将这种思想所代表的技术路线统一归纳命名为“IaaS on DPU (IoD)”技术路线,简称 IoD。本文重点阐述了 IoD 技术的构成以及与当前主流云计算体系的融合方案,从计算、网络、存储、安全、管控等几个方面进行深度分析,论证了基于 DPU 构建云计算基础设施服务(IaaS)的性能优势与建设路径。

         随着 DPU 技术的成熟,不论从功能完备性、系统稳定性还是性价比角度,DPU 均已经具备在大规模生产环境落地应用的条件。某种程度上,IoD 技术已成为下一代高性能算力底座的核心技术与最佳实践。