中科驭数|解决方案

方案背景

随着各种智能应用的不断涌现，数据量呈爆发式增长，高性能计算从传统的工程科学应用计算慢慢地向大数据计算、机器学习和 AI 运算等新兴数据密集型计算发展。这种趋势不仅对算力提出了新的要求，也对异构算力并行计算的数据同步效率提出了要求，多卡多机是智算平台的基本形态，多机间通信性能成为衡量集群性能的重要指标，更高的数据吞吐、更低的时延和更稳定的 I/O 能力，是有效提升算力的基础。中科驭数基于DPU 产品打造的高性能算力网络解决方案，为智算平台算力芯片之间提供高效稳定的数据通道，有效降低传输时延和算力损耗，让集群网络不再是算力输出的瓶颈。

行业痛点

中断频繁，传输效率低下

传统的数据同步和调度，依赖 CPU 来处理网络请求和内存、显存之间的数据拷贝，这时 CPU 会成为数据I/O 的瓶颈，导致数据在节点间的传输效率低下，进而影响智算平台整体的计算性能。

网络性能瓶颈

受限于网络时延和带宽限制，千亿模型训练时间长达数十天，万卡集群节点间数据同步效率低下，耗费大量算力，扩展能力十分有限。

网络拥塞与负载不均

随着计算任务规模的扩大，网络流量急剧增加，可能导致网络拥塞，会导致丢包和网络传输效率骤减，进而影响整体的计算效率和性能

资源利用率低下

多租户环境下，资源独占隔离，导致GPU显存等资源无法跨任务共享，形成资源孤岛。算力资源负载不均衡，无法得到充分利用，导致成本居高不下。

整体方案

中科驭数高性能智算基础网络解决方案，使用自主研发的 RDMA 网络 DPU 卡产品，构建高吞吐、低时延的 RoCEv2 无损网络，利用 GPUDirect RDMA 技术，在多卡多机的智算平台中实现跨节点的 GPU 显存共享，结合 GPUDirect Storage 技术，实现 AI 服务器之间，算力与存储之间的快速数据通路，提升多点协同效率。同时，利用 DPU 卡的拥塞控制、重传、流量整形等流控技术，实现负载均衡、高效稳定的无损 RDMA 网络。FLEXFLOW 2200R DPU 卡可广泛应用于裸金属、虚拟化、高性能 AI 计算等多种场景，为新型数据密集型高性能计算应用打造高效可靠的基础算力网络。

方案特点

100G高性能RoCEv2网络

基于RoCEv2技术实现微秒级时延和100Gbps带宽的高性能RDMA网络,通过拥塞控制，流量管理等技术实现高效、均衡的无损网络数据传输。支持SR-IOV虚拟化,进一步提高了资源利用率和系统稳定性，为智算算力集群提供性能卓越、稳定可靠的网络环境。

支持GPUDirect技术

通过GPUDirect RDMA（GDR）技术实现高带宽、低时延的P2P数据传输，提高GPU芯片计算效率和资源利用率。支持NCCL、UCX等主流集合通信库，与AI智算生态无缝融合，为GPU服务器应用快速部署提供高效便捷的网络环境

KISA指令集结合微码众核

创新使用微码众核技术结合KISA专用指令集，整体架构兼具灵活性，高性能，强扩展等特点，自主流片设计，全链路自主可控。同时，深度融合国产软硬件生态，适配国产CPU、GPU服务器和操作系统，弥补国内生态在高性能网络方面的不足

自主可控

自主研发的K2-Pro芯片，多项核心专利技术加持，持续保持技术领先

高效运维

丰富的运维管理，硬件实时统计和网卡状态监控功能，支持拥塞控制算法，同时还提供端到端数据包级别的流量控制，QP级精准异常管理，最大程度保证网络稳定

释放CPU算力

支持卸载部分CPU处理逻辑，例如校验和计算、传输层分片重组等，支持内核旁路，数据零拷贝，以减轻CPU负载，释放算力