2024下一代高性能算力底座技术白皮书-70正式版.docx
《2024下一代高性能算力底座技术白皮书-70正式版.docx》由会员分享,可在线阅读,更多相关《2024下一代高性能算力底座技术白皮书-70正式版.docx(65页珍藏版)》请在优知文库上搜索。
1、IaaSonDPU(IoD)下一代高性能算力底座IaaSonDPU(IoD):ANewApproachforNext-GenC1.oudComputingInfrastructure技术臼皮书处理器芯片全国陋点实验室中国计算机学会集成电路设计专业委3会SKUP始芯片全AB.点实”CVMTKTVMAVMOCtWOaCT.CM-X-4raS=a前百DPU是当下算力基础设施的核心创新之一。如果把CPU比做大脑,那么GPU就好比是肌肉,而DPU就是神羟中枢。CPU承载了应用生态,提供了通用型算力;GPU提供了高密度各类精度的算力,特别是在智算领域,对系统算力大小有决定性作用;DPU负责数据在各种CPU
2、之间、CPU与GPU、以及GPU与GPU之间高效流通,很大程度上决定了系统是否能协同工作。DPU作为数据中心的第三颗“主力芯片”,主要通过其专用处理器优化数据中心的网络、存储、安全等处理性能,助力服务器运行效率显著提升,有效降低成本。因此,在新型数据中心建设时,围绕DPU构建数据中心网络的基础设施,在其上挂载了各种计算、存储资源的节点,对于系统的资源弹性、运行效率、性能都大有益处。但是这种使用方式的变化,需要对现有云计算架构进行一定程度的变革,才能充分发挥出DPU的优势。云计算中的头部企业AWS与阿里云在DPU的应用方面也有成功案例.借助其软硬件全桃自研的优势,快速完成了云计算系统的改造工作,
3、实现了DPU大规模落地部署,在降低自身运营成本的同时为客户提供更好的使用体验,并产生了可观的经济效益。这种正向循环促进了相关技术栈的快速迭代与成熟,也帮助他们发展成为云计算业务领域的领军企业。随着众多芯片厂商投身到DPU技术领域后,业界对DPU的产品形态定义逐渐清晰,DPU的技术标准也在不断完善。从此DPU不再是行业巨头的“专享”技术,基础设施与云计算相关产业参与者都在寻求一种简单高效的方法,将DPU的优势运用到自身业务系统之中,WRedHat,VMware.Pa1.。A1.t。等公司纷纷推出相关解决方案。这些方案背后共同的本质思想是:将云计算的IaaS层组件从服务器侧卸载后围绕DPU构筑高性
4、能算力底座,与AWS、阿里云的技术路线不谋而合。我们将这种思想所代表的技术路线统一归纳命名为IaaSonDPU(I。D)-技术路线.简称2D。本文重点阐述了I。D技术的构成以及与当前主流云计算体系的融合方案,从计算、网络、存储、安全、管控等几个方面进行深度分析,论证了蔑于DPU构建云计算基咄设施服务(IaaS)的性能优势与建设路径。随着DPU技术的成熟.不论从功能完备性、系统稳定性还是性价比角度.DPU均已经具备在大规模生产环境落地应用的条件。某种程度上,IOD技术已成为下一代高性能算力底座的核心技术与最佳实践。目录trBs*云计算发JgUI第11.1 云计算系统已经成为数字世界的“操作系统”
5、11.1.1 云计算的发展历程11.1.2 云计算技术特点21.2 A1.产业催生高性能云计算需求31.2.1 A1.技术发展概述31.2.2 云计算性能对AI计算影响重大41.2.3 主流A1.训练的云计算支撑架构51.3 IaaSOnDPU(IOD)算力底座技术路线61.3.1 IoD发展历程61.3.2 I。D技术路线解析71.3.3 高性能云计算的规格定义101.4 I。D高性能云计算应用范式131.4.1 “兼容并包”的公有云131.4.2 -安全强大”的私有云141.4.3 “小巧精美”的边缘云151.4.4 -异军突起的智算云151.4.5 “电光火石”的低时延云162云计M务曲
6、分析182.1 当前主流云计算体系结构182.1.1 硬件部分182.1.2 基础软件192.1.3 云管平台192.1.4 业务服务202.2 计算业务分析202.2.1 裸金属服务器212.2.2 虚拟机212.2.3 容器222.2.4 GPU服务器222.2.5 应用场景与选择策略232.3 网络业务分析242.4 存储业务分析252.5 安全业务分析262.6 平台服务业务分析272.6.1 数据库272.6.2 中间件272.6.3 服务治理283*鹰性能云计91/晚修293.1 通用算力技术分析293.1.1 CPU的计算能力发展历程293.1.2 云计算卸载技术为CPU算力提升
7、带来的优势303.1.3 I。D技术为HyPerViSor卸载提供最佳支撑323.2 智算算力技术分析343.2.1 GPU的计算能力发展历程343.2.2 GPU算力提升带来与网络吞吐的矛盾现状353.2.3 无损网络技术为A1.训练带来的性能提升363.3 云计算网络技术分析383.3.1 云计算网珞是算力连通的基础383.3.2 云计算网关是算力开放的门户393.3.3 高性能云计算需要网络卸载进行性能提升393.4 云计算存储技术分析423.4.1 单一存储技术方案无法满足云计算要求423.4.2 云存储需要引入新技术突破性能限制433.4.3 I。D技术可以提升存算分离架构下的处理性
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 2024 下一代 性能 底座 技术 白皮书 70 正式版