-大数据技术课件第3章PPT内容-.docx
《-大数据技术课件第3章PPT内容-.docx》由会员分享,可在线阅读,更多相关《-大数据技术课件第3章PPT内容-.docx(6页珍藏版)》请在优知文库上搜索。
1、“大数据技术课件第3章PPT内容“1、大数据技术与应用第三章HadoOP分布式系统提纲O3.1Hadoop概述03.2Hadoop相关技术及生态系统o3.3操作实践:Hadc)OP安装与配置O习题O小结23.1HadoOP概述O3.1.1HadooP简介Hadoop是一个能够让用户轻松架构和使用的分布式计算平台。它主要有以下几个优点。U高牢靠性U高扩展性U高效性U容错性33.1Hadoop概述3.1.2Hadoop的进展历程hadoop的进展历程,如下所示LHadoop最初是由APaCheLUCene项目的创始人DoUgCUtting开发的文本搜寻库。2.在20222、年,Nutch项目开发了
2、NDFS(NutchDistributedFileSystem),3.2022年,谷歌公司又发表了论文,阐述了MapReduce分布式编程的思想。4.2022年,Nutch开源实现了谷歌的MapReduce05,2022年2月,ApacheHadoop项目正式启动以支持MapReduce和HDFS的独立进展。6.2022年4月,雅虎公司实现了包含1000个计算节点的Hadoop集群。7.2022年,淘宝开头投入讨论基于Hadoop的系统云梯,并将其用于处理电子商务相关数据。8.2022年1月,HadooP成为APaChe顶级项目,获得了业界更为广泛的关注。43、9.2022年2月,雅虎公司宣布
3、其搜寻引擎产品部署在一个拥有1万个内核的Hadoop集群上。10.2022年7月,Hadoop打破ITB数据排序基准测试记录。11.2022年5月,Yahoo的团队使用HadOoP对ITB的数据进行排序只花了62秒时间。12.2022年7月,HadoopCore项目更名为HadoopCommon;MapReduce和HDFS成为HadOoP项目的独立子项目;AVrO和ChUkWa成为hadoop新的子项目。13.2022年5月,Avro数据传输中间件和HBaSe数据库从HadOOP项目中脱离出来,成为APaChe顶级项目。此外,IBM供应了基于Hado4、op的大数据分析软件InfoSpher
4、eBiglnsights,包括基础版和企业版。14.2022年9月,Hive数据仓库工具和Pig数据分析平台从Hadoop项目中脱离出来,成为Apache顶级项目。15.2022年1月,ZOoKeePer脱离Hadoop,成为Apache顶级项目。53.1Hadoop概述16.2022年5月,MaprTechnologies公司推出分布式文件系统和MapReduce引擎MapRDistributionforApacheHadoopo还有的是,HCataIOgLO发布,使得数据清理和归档工具可以很简单的进行处理。17.2022年8月,5、Cloudera公布了一项有益于合作伙伴生态系统的方案创建
5、一个生态系统,以便硬件供应商、软件供应商以及系统集成商可以一起探究如何使用Hadoop更好的洞察数据。18.2022年12月,Hadoopl.0.0版本发布,标志着Hadoop技术进入成熟期。19.2022年5月,Hadoop发布2.0Alpha版本,对MapReduceHDFS等部分进行了重大改进,标志着HadOOP技术进入一个新的进展阶段。20.2022年8月,HadOOPl.2.1稳定版发布。63.1Hadoop概述3.1Hadoop概述o3.1.3Hadoop原理及运行机制Hadoop的核心由3个子项目组成:LHa6、doopCommon2.HDFS3.MapReduce73.1Had
6、oop概述I1.HDFS组件HDFS(HadoopDistributedFiIeSystem)是一种特地为MapReduce这类框架下的大规模分布式数据处理而设计的文件系统。HDFS的组件主要有:NameNodeSecondaryNameNode以及DataNodeou1)NameNodeNameNode,即元数据节点。元数据节点用来管理文件系统的命名空间。它将全部文件和文件夹的元数据保存在一个文件系统树当中。这些信息也会存储在NameNode维护的两个本地磁盘文件:命名空间镜像文件(namespaceimage)7、和编辑日志文件(editlog)。NameNode还保存了一个文件包括哪些数
7、据块,分布在哪些数据节点上。然而这些信息并不存储在硬盘上,而是在系统启动的时候从数据节点收集而成的。83.1Hadoop概述u2)SecondaryNameNodeSecondaryNameNode,即从元数据节点。在Hadoop集群环境上,只有一个NameNode节点。那么,一旦NameNode节点消失故障,整个系统将会受到影响。为了提高NameNode的牢靠性,从Hadoop0.23开头引入了SecondaryNameNodeo但是,SecondaryNameNode并不是NameNode消失问题的时候的备8、用节点,它和NameNode负责不同的事情。SeCOndaryNameNode的
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 数据 技术 课件 PPT 内容