2021OpenCL中文教程AMD版本.docx
《2021OpenCL中文教程AMD版本.docx》由会员分享,可在线阅读,更多相关《2021OpenCL中文教程AMD版本.docx(86页珍藏版)》请在优知文库上搜索。
1、OPenC1.中文教程(AMD)第一百GPU计算与OPenC1.1.1什么是QPenC1.112为什么要使用OPenC1.1121利用OPenC1.可以充分利用设备的并行特性11.2.2OPenC1.为程序员提供了平台独立性213AMD与流计算31.4本文的结构4第二章OPenC1.架构2.1平台模型P1.atfOrmMOdeI522内存帙5?MemoryMOdeI623执行模型ExecutiOnMOde1.72,4编程模型PrOgrammingMode1.9第三妾OPenC1.编程32OPenC1.平台初始化1933OPenC1.运行时模块213.4 QPenC1.内存管理模块273.5 O
2、PenC1.内核模块333.6 OPenC1.的可选扩展44第四章OPene1.优化编程4.1AMDGPU架构4742暴本优化策珞4743数据传输优化484.4内存访何的优化技术494.4.1 G1.oba1.Memory访存494.4.2 1.oca1.Memory访存5245计算及控制流优化5845.1控制流584.6其他优化技术594.6.1 内建数学函数59第五章实例之一M1.R-FHD和MiR-Q的优化5.1M1.R-FHD和M1.R-Q的优化61第六章实例之二:KD-Tree创建算法并行化1 .1KD-Tree简介6962 KDTree的创建兑法改进6963 并行创建KDTree算
3、法细节7363.1 求元素的包悟维合73632元案的空间分割策略7463.3 KD-Tree节点的内存管理756.4 利用OPenC1.所能带来的潜在优势756.5 本章小结76第七章实例之三:稀疏矩阵-向量乘法(SPMV)7.1 相关的基本概念771.1 .1稀跋地阵777.12 稀疏矩阵的CSR格式7812SPMV算法设计和优化79721SPMV基本算法及其并行化79722基本并行算法的优化80723Itt步改进的方法827.3本章小站86附录AAMDOPenC1.开发环境A.1如何组建AMD流计算环境87A.2AMDopenC1.profiIerXK88附录B常用术语B.1中英文术语对照
4、表91B2名词解择92第一章GPU计算与OPene1.U什么是OPenC1.OpenC1.fOpenComputing1.anguage即开放:SmOPenC1.为异构平台提供了一个第写理T,尤共是并行程序的开放的框架标准OpenC1.所支持的升构平台可由多核CPU、GPU或其他类型的处理器组成.OPenC1.由两部分组成.-足用于编写内核程序(在OPenC1.设备上运行的代用)的语;.二是定义并控制平台的AP1.oPenC1.提供基于任务和基于数据两种并行计算机制,它极大地扩展fGPU的应用范用,使之不再局限国形领域.OPenC1.由KhrO1.WSGrOUP维护.KhronoSGrOUP企
5、个非盈利性技术组织.维妒售多个开放的1:火标准.例加QPenG1.和OPenA1.这两个标准分别用于潍图形和计算机音蜘力叽OPenc1.源程序既可以在名核CpU上也可以在GPU上编课执行,这大大提倡了代磷性能和可移构性,OPenC1.标准由相应的标准委员会IWiT,委员会的成员来自业界各个重要厂商2.作为用户相程序员期待已久的东西,OPme1.芾来两个重要变化:一个跨厂商的IE专仃软件解决方案:一个跨平台的异构框架以同时发挥系统中所存计算单元的能力.12为什么要使用OPenC1.1.Z1.利用C)PenC1.可以充分利用设备的并行特性现代处理器的架构己经籽并行计兜作为J*提高性能的个段市更途径
6、.高性能CPU的由于很难克眼提高时钟频率后的放热问题转而使刖增加运郎核心的方法加速,作为图形渲染5用的处理器,GPU具有淘度的井行特性,由于相关应用的霜要,GFU也从他的图形渲染设备转化为作为通用计W的协处理器,相对于CpU.GPU行很多自己独行的特点。 GPU的运。核心数法较远远超过高端CPU的核心Jf%GPU的每个运算核心并没有CPU的运灯核心工作频率醺,但是其总体性能-芯片面积比和性能-功任比都很离,在处理并行计。的相关任务中有很大优势. GPU是通过火盘并行线程之间交织运行物戚全局访问的妊迟,同时GPU逐棚有大量的寄存、局部存储涔及CaChe等来提升外部存储的访问性能,.UOHDSMW
7、ftrtMeU46MAMDsWXttne.NVMi*WJ*fcIYwC1.UfeAM.除以上两点.GPUH对于CPU还在很多其他将性。这些特性决定了GPU的计算模式是以种并行的方式进行计灯的.蛙干GPU或者其他并行运尊设法的算法与传统的1CPU的举行算法有很大差别:,并行算法中要行大驻维稗在运行,而一般的串行律法都乂忏-个线程在运行。,并行算法中的旬个浅程的行为需要尽城保持一致,如果分支很多,各战程乂选报不同路径执行,会严五肾低GPU运喇效率.在CPU中,邺使有两个线程的行为而慢不一效.也不会非御河件能.在拜并不加特殊约束的情况下,并行运算泄各是不保证每个段程看到的全局内存是一致的。程I?员有
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 2021 OpenCL 中文 教程 AMD 版本