分布式异构智能算力的管理和调度技术研究报告2023.docx
《分布式异构智能算力的管理和调度技术研究报告2023.docx》由会员分享,可在线阅读,更多相关《分布式异构智能算力的管理和调度技术研究报告2023.docx(23页珍藏版)》请在优知文库上搜索。
1、一、研究背景3二、异构算力的发展和应用场景需求4(一)异构算力的发展情况4(二)异构算力的主要应用场景7三、分布式异构算力管理和调度的关键技术能力9(一)异构算力的虚拟化和池化10(二)分布式异构算力的调度能力13(三)分布式异构算力的度量和标识16四、当前业界技术实现情况17(一)中国移动智算体系实现异构资源池化18(二)浪潮AlStation平台实现异构资源管理调度19(三)新华三傲飞平台实现异构资源管理调度22五、总结与展望24参考文档26一、研究背景随着我国数字经济规模总量的不断攀升,实体经济、数字经济和信息服务的深度融合正加速产业数字化和数字产业化变革。算力作为承载信息数据的重要基础
2、设施,已成为全社会数字化转型的重要基石。根据中国信息通信研究院最新发布的中国算力发展指数白皮书(2023年)显示,至2023年我国智能算力规模达到178.5EFk)Ps,增速为72%,在我国算力占比达59%,成为算力快速增长的驱动力;据IDC等机构预测,至2025年,新增数据量180ZB,其中80%的增长来自于文本、图片、语音、视频等非结构化的数据。随着人工智能、元宇宙、高性能计算等领域的发展,激发了更多智能数据处理的需求和场景,对新型智能算力的需求激增。*lWiAjt/AWm. IDC,Grtner.Wl(O本研究围绕典型智能计算应用对异构算力的协同及调度需求,研究泛在异构算力参与训练或推理
3、过程的协同需求、调度需求,研究泛在异构算力参与训练或推理过程的协同需求,包括异构算力类型、规模要求、性能要求、网络要求、数据传输要求等,分析异构算力协同的应用场景等特点,考虑同数据中心、跨数据中心、跨云边端多级、池化和非池化异构算力并存等各种场景下,算力协同的需求及可行性。研究分析异构算力资源分类整合、池化重构和智能分配等技术方案。研究分布式异构算力资源管理技术方案,包括管理跨数据中心、边缘及端侧的GPU、FPGA等异构算力设备,已虚拟化或池化的异构硬件,研究对异构算力资源进行标识和监控的方案,对算力进行细力度切分供给的技术方案,研究对计算任务进行异构算力匹配和调度的技术方案。包括如何匹配差异
4、化的计算任务到相应的异构算力节点,如何支持异构算力资源高效和细粒度分配,基于应用场景的负载差异性,建立面向多样化异构算力资源和上层多场景需求的多元异构算力统一调度架构,统一资源实时感知,抽象资源响应和应用调度。研究分布式AI框架支持分布式异构算力的管理和调度技术方案。二、异构算力的发展和应用场景需求(一)异构算力的发展情况异构算力通常是指CPU、GPU、FPGA、ASIC等多种不同的算力处理体系,能够满足不同场景中的应用需求,实现计算效力最大化。异构算力通常以Al芯片的形态被集成在计算机中,Al芯片是AI算力的核心基础设施之一。近年来,面向特定领域体系结构的定制化芯片也不断涌现,已成为AI算力
5、发展的主流趋势。目前异构算力主要有以下类型:GPU:英伟达GPU的发展可以追溯到1999年,当时英伟达发布了第一代GPU架构GeFOrCe256,标志着GPU时代的开始。随后,英伟达的GPU架构不断升级,从TNT、Rage到GefOrCe256,再到TeSIa、FermiKeplerMaXWen等。随着GPU技术的不断发展,英伟达的GPU架构也不断升级,以适应日益增长的计算需求,GPU架构也不断推动着图形渲染、人工智能和高性能计算等领域的发展。近年来,英伟达还发布了多款强大的GPU芯片,如TUring、AmPere等,这些芯片都具有高性能的计算能力,为各种应用提供了强大的计算支持。2022年3
6、月,英伟达推出了HGXHIo0,拥有最高可达18432个FP32(单精度)和9216个FP64(双精度)的CUDA核心,辅以576个第四代TenSor核心。2023年11月,英伟达再次升级其GPU产品线,发布了HGXH200。这款新的AI计算平台在原有HlOO的基础上进行了全面升级,主要升级包括提供141GB的下一代HBM3e内存,这使得H200成为了英伟达目前最强的人工智能芯片。APU:APU(AcceleratedProcessingUnit)中文名字叫加速处理器,AMD将中央处理器和独显核心做在一个晶片上,它同时具有高性能处理器和最新独立显卡的处理性能,支持DXIl游戏和最新应用的“加速
7、运算”,大幅提升了电脑运行效率。从2010年以来,AMD相继推出GCN架构、RDNA架构、RDNA2架构、RDNA3架构、CDNA架构和CDNA2架构。最新一代面向高性能计算和人工智能CDNA2架构于架构采用增强型MatrixCore技术,支持更广泛的数据类型和应用,针对高性能计算工作负载带来全速率双精度和全新FP64矩阵运算。基于CDNA2架构的AMDInstinctMI250XGPUFP64双精度运算算力最高可达95.7TFLOPso TPU:TPU是由Google推出的人工智能芯片TenSOrProcessingUnito之后又陆续推出了TPUv4等若干代TPU和TPUEdge。TPU是
8、计算神经网络专用芯片,是google为了为优化自身的TensorFlow机器学习框架而打造。 FPGA:FPGA作为一种灵活可编程的硬件平台,具备较高的计算性能和可定制性,能够提供对Al算法的加速和优化;在Al应用中,可以用于实现神经网络加速器、高性能计算单元等,为计算密集型的AI任务提供高性能和低延迟的计算能力。例如,英特尔Stratix10NXFPGA就是专门为AI设计的,具有Al张量块,包含密集的低精度乘法器阵列,针对矩阵和向量乘法进行了调整,可执行INT4、INT8、BIoCkFP12或BIoCkFP16操作。此外,这些张量块可以级联在一起,支持大型矩阵。 ASIC:与更通用的芯片(如
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 分布式 智能 管理 调度 技术研究 报告 2023