-大数据技术课件第5章PPT内容-.docx
《-大数据技术课件第5章PPT内容-.docx》由会员分享,可在线阅读,更多相关《-大数据技术课件第5章PPT内容-.docx(11页珍藏版)》请在优知文库上搜索。
1、“大数据技术课件第5章PPT内容“1、大数据技术与应用第5章MapReduce分布式计算提纲o5.1MapReduce简介o5.2MapReduce操作实践o小结o习题25.1MapReduce简介o5.1.1MapReduce架构I和HDFS一样,MapReduce也是采纳Master/Slave的架构,其架构图如下图所示。BMapReduceMapReduce架构图架构图o它主要由ClientJobTrackerTaskTracker及Task4个部分组成:门ObTraCke负责资源监控和作业调度。JobTracker监控全部TaskTracker与job的健康状况,一旦发觉失败,就将相应
2、的2、任务转移到其他节点;同时,JobTracker会跟踪任务的执行进度、资源使用量等信息,并将这些信息告知任务调度器,而调度器会在资源消失空闲时,选择合适的任务使用这些资源。在Hadoop中,任务调度器是一个可插拔的模块,用户可以依据自己的需要设计相应的调度器。45.1MapReduce简介ITaskTracker会周期性地通过Heartbeat将本节点上资源的使用状况和任务的运行进度汇报JobTraCker,同时接收JobTraCker发送过来的命令并执行相应的操作(如启动新任务、结束任务等).TaskTracker使用slot等量划分本节点上的资源量。甸。代表计算资源(C3、PU、内存等
3、)。一个Task猎取到一个slot后才有机会运行,而Hadoop调度器的作用就是将各个TaskTracker上的空闲slot安排给Task使用。slot分为Mapslot和Reduceslot两种,分别供MapTask和ReduceTask使用。TaskTracker通过Slot数目(可配置参数)限定TaSk的并发度。55.1MaPRedUCe简介ITask分为MapTask和ReduceTask两种,均由TaskTracker启动。HDFS以固定大小的block为基本单位存储数据,而对MapReduce而言,其处理单位是split。SPIit是一个规律概念,只包4、含一些元数据信息,如数据起
4、始位置、数据长度、数据所在节点等。它的划分方法完全由用户自己打算。但需要留意的是,split的多少打算了MaPTaSk的数目,由于每个SPlit只会交给一个MapTask处理。SPlit和block的关系如下图所示。65.1MapReduce简介75.1MapReduce简介splitsplit和和blockblock的关系的关系85.1MapReduce简介IMapTask执行过程如图5-3所示。由图5-3可知,MapTask先将对应的split迭代解析成一个个key/value对,依次调用用户自定义的map()函数进行处理,最终将临时结果存5、放到本地磁盘上,其中临时数据被分成若干个Par
5、titiOn,每个partition将被一个ReduceTask处理。RedUCeTaSk执行过程如图5-4所示。该过程分为以下3个阶段。U从远程节点上读取MapTask中间结果(称为Shuffle阶段)u(2)根据key对key/value对进行排序(称为Sort阶段)。U依次读取key,valuelist,调用用户自定义的reduce。函数处理,并将最终结果保存到HDFS上(称为Reduce阶段S三5-45-4RedceTaskRedceTask执行过程执行过程9图图56、-35-3MapTaskMapTask执行过程执行过程图图5-45-4ReduceTaskReduceTask执行过程
6、执行过程5.1MapReduce简介o5.1.2MapReduce的原理IMapReduce框架的流程如图5-5所示10图图5-55-5MapReduceMapReduce框架的流程图框架的流程图5.1MapReduce简介针对上面的流程可以分为两个阶段来描述。LMap阶段u(I)InputFormat依据输入文件产生键值对,并传送到Mapper类的map函数中。UMaP输出键值对到一个没有排序的缓冲内存中。u(3)当缓冲7、内存达到给定值或map任务完成,在缓冲内存中的键值对就会被排序,然后输出到磁盘中的溢出文件u假如有多个溢出文件,那么就会整合这些文件到一个文件中,且是排序的。u这些排序过
7、的、在溢出文件中的键值对会等待Reducer的猎取。115.1MaPRedUCe简介2.Reduce阶段u(I)Reducer猎取Mapper的记录,然后产生另外的键值对,最终输出到HDFS中。UShUffle:相同的key被传送到同一个的Reducer中。U(3)当有一个Mapper完成后,Reducer就开头猎取相关数据,全部的溢出文件会被排到一个内存缓冲区中。u(4)当内存缓冲8、区满了后,就会产生溢出文件到本地磁盘。u当Reducer全部相关的数据都传输完成后,全部溢出文件就会被整合和排序。u(6)Reducer中的reduce方法针对每个key调用一次。u(7)Reducer的输出到
8、HDFSo125.1MaPRedUCe简介o5.1.3MaPRedUCe的工作机制I一、MaPRedUCe运行图如图5-6所示:13图图5-6.MapReduce5-6.MapReduce运行图运行图5.1MapReduce简介I二、运行解析1.作业的提交Ul)此方法调用SUbmito.在SUbmito方法里面连接JobTracker,即生成一个内部Job9、SUmmitter(实际上是newJobClient(),在newJObClient()里面生成一个JObSUbmiSSionProtoCol接口(JobTracker实现了此接口)对象jobSubmitClient(是它连接或对应着Jo
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 数据 技术 课件 PPT 内容