高性能计算与智算无损网络解决方案

高性能计算与智算无损网络解决方案
方案背景
随着各种智能终端的不断涌现,数据量呈爆发式增长,高性能计算从传统的工程科学应用计算慢慢地向大数据计算、机器学习和AI运算等新兴数据密集型计算发展。这种趋势不仅对算力提出了新的要求,也对异构算力并行计算的数据同步效率提出了要求,更高的数据吞吐、更低的时延和更高效的存储I/O能力,是有效提升算力的基础。中科驭数基于DPU产品打造的高性能计算解决方案,经过驭数自研大数据加速解决方案的应用验证,拥有更高效的计算性能和更低的拥有成本。
行业痛点
数据I/O能力不足和传输效率低下
传统的数据同步和调度,都是依赖 CPU 来控制完成不同内存位置间的数据拷贝,这时 CPU 会成为数据I/O 的瓶颈,导致数据在算力间的传输效率低下,进而影响整体的计算性能。
大流量下的网络拥塞影响整体计算能力
在大量并行计算任务运行时,大量的数据同步需要较高的网络吞吐能力,然而,在出现网络拥塞的时候,会导致丢包和网络传输效率骤减,进而影响整体的计算效率和性能。
存储读写性能瓶颈
数据密集型高性能计算会有大量的数据存储在磁盘中,计算过程中也会从远端共享磁盘中读取数据或向远端共享磁盘中写入数据,传统远端存储读写性能无法满足新型高性能计算的性能要求。
整体功耗和TCO高
运行处理数据任务的CPU长期处于高负荷状态,整体功耗和TCO偏高,急需降本增效。
解决方案描述
中科驭数高性能计算解决方案,整合了自研 RDMA DPU 卡产品主流 GPU 和 AI 芯片产品、国内主流以太网交换机产品,基于高吞吐、低时延的 RoCEv2 无损网络、GPUDirect RDMA 和 GPUDirect Storage 技术构建高效的分布式并行计算平台,为新型数据密集型高性能计算应用打造高效可靠的算力基础设施。
方案特点
高效可靠的网络通信能力
基于RoCEv2和无损网络提供高效可靠的数据通信能力。 GPUDirect RDMA加速跨节点GPU间的通信能力,助力算力提升。 GPUDirect Storage加速GPU与远端存储的通信能力,实现高吞吐低时延的数据读写。
丰富的业务生态伙伴
同国内外多个GPU和AI芯片厂家建立合作关系,共同打造适用于多种高性能计算应用场景的解决方案。 同国内主流交换机厂家在无损网络方面进行深度合作,提供灵活的无损网络解决方案。
开放生态和二次开发能力
完备的开放生态平台HADOS® ,提供充分稳定的软件生态资源。详细的开发接口,让开发集成更简单。丰富的生态伙伴资源,更多合作与创新。
灵活的系统兼容能力
适配国内外多个主流CPU平台,提供良好的硬件兼容能力。适配国内外多个主流操作系统,提供良好的软件兼容能力。
相关产品
方案价值
随着高性能计算的发展,大数据、机器学习和AI运算等新兴计算技术对数据高速传输能力的依赖性越来越明显。本方案可以提供高效可靠的数据通信基础设施,具有和业界头部厂商相媲美的性能,同时提供更适合国内高性能计算行业的定制化开发灵活性,致力于打造国内高性能计算生态联合解决方案样板。