大数据技术及应用——基于Python语言 思考题参考答案 严宣辉 - 第5--9章 大数据计算---大数据应用案例.docx
《大数据技术及应用——基于Python语言 思考题参考答案 严宣辉 - 第5--9章 大数据计算---大数据应用案例.docx》由会员分享,可在线阅读,更多相关《大数据技术及应用——基于Python语言 思考题参考答案 严宣辉 - 第5--9章 大数据计算---大数据应用案例.docx(17页珍藏版)》请在优知文库上搜索。
1、第五章大数据计算1.简述IfepRedUCe计算过程将输入文件切分为逻辑上的多个Sp1.it,通过RecordReader处理Sp1.it中的具体记录,加载数据并转换为适合Map任务读取的,并输入给Map任务。(2) Map:根据用户自定义的映射规则,输出一系列key,VaIUe的作为中间结果。(3) Shuff1.e:对Map任务的输出结果进行一定的分区、持序(Sort),合井(Combine)、归并(Merge)等操作,得到形式的中间结果,并交给对应的Reduce任务进行处理。(4) Reduce:以系列key,va1UeTiSt的中间结果作为输入,执行用户定义的逻辑,输出结果给Outpu
2、tFormat4(5) OutputForma1.验证输出FI录是否已经存在及输出结果类型是否符合配餐文件中的配践类型,并输出RedUCe任务的结果到分布式文件系统。2 .简述本章列举的大数据计笄模式的异同(1)在大数据领域,批处理计算是把所有的数据算-遍以获得答案的计鸵模式:而流计算中处理的数据是源源不断地、突发地到来的流数据(或数据流)。批处理计克使用的算法经常被称为批量尊法,流计算使用的算法经常被称为增信兑法,潦计算常常需要大数据算法的支持。(2)图计.算和流计郛、MaPRedUCe等类似,是一种通用分布式计算模式,解决的是在大规模分布式计算环境下的共性问题。但是,它乂和流计算不同,图计
3、算是一种真正的计算模式,各种图计算系统也通过提供API等形式,允许开发者在一致性的计算模式下,根据自己的需要开发特定的应用。(3)查询分析计豫利用SQ1.对文本或者非结构化数据进行处理的通用数据处理架构。(4)云计算代表了以虚拟化技术为核心、以低成本为目标的、动态可扩展的网络应用基础设施。3 .简述云计算的服务模式云计算中典型的服务模式:基础设施即服务(IaaS),平台即服务(PaaS)和软件即服务(SaaS)o4 .前述云计算的类型云计算的类型包括公有云、私有云和混合云。5 .简述云计算的关键技术云计算的关键技术包括虚拟化技术、分布式存储、分布式计算,多租户技术。6 .简述云计算与大数据的区
4、别与联系(1)云计算和大数据的区别:云计算旨在整合和优化各种IT资源,并通过网络以服务的方式廉价地提供给用户;大数据旨在对海量数据的存储、处理与分析,从海量数据中发现价值,服务于社会生产和生活。(2)云计算和大数据的联系,从整体上看,大数据和云计算是相辅相成的。云计算为大数据处理提供了强大的计算和存储基础设施,同时也可以提供各种数据管理和分布式计和服务,使得大数据处理变得更加高效和灵活。反之,大数据为云计篮提供了“用武之地”,没有大数据这个“练兵场”,云计.算再先进,也不能发挥它的应用价值。可以说,云计算和大数据已经彼此渗透、相互融合、相互促进、相互影响,7 .简述YARN各组件的功能(1)
5、ResourceManager:处理C1.ient的请求:启动/监控pp1.icatiorMaster;监控NOdeMarU1.ger;资源分配与调度(2) App1.icationMaster:为应用申谛资源,并分配给内部任务;任务调度、监控与容错(3) NodeManager:单个节点上的资源管理;处理来BReSOUrCeMUnager的命令;处理来自App1.icationMaster的命令8 .简述SparkRDO依赖关系区别RDD的依敕关系可以分为两种类型:(D窄依赖关系:每个父RDD分区最多只有一个子RDD分区依赖它。(2)宽依赖关系:每个父RDD分区可以有多个子RDD分区依赖它。
6、9 .葡述Spark的运行架构(1)当个SPark应用被提交时,首先为这个应用构建起基本的运行环境,(2)资源管理淞为EXeeUtOr分配资源,并启动Ex。CUtOr,Executor运行情况符随若“心跳”信息发送到资源管理器上。(3) SparkContext根据RDD的依赖关系构建DAG,并将DG提交给DAG调度器进行解析。(4)任务在Executor上执行,执行结果被反馈给任务调度器和DAG调度罂,执行完毕后写入数据并释放所有资源。10 .简述HadooptO的改进与提升针对Hc1.op1.0存在的局限与不足,在后续发展过程中,HadOoP对MaPRedUCe和HDFS的许多方面做了有针
7、对性的改进与提升:(I)HDFS:对于单名称节.点,存在的单点故障问题,设计了HDFSHA.提供名称节点热备份机制.对于单一命名空间,无法实现资源隔离问题,设计TIIDFS联邦,管理多个命名空间。(2)MaPRedUCe:对于资源管理效率低的问题,设计了新的资源管理调度框架YARN。11 .使用代码实现一个匍单的询频疑计MapRoduce应用*mapper函数defmapper(1.ine):words=1.ine,strip().sp1.it()forwordinwords:yie1.d(word,1)#reducer函数defreducer(word,counts):returnword,
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 大数据技术及应用基于Python语言 思考题参考答案 严宣辉 第5-9章 大数据计算-大数据应用案例 数据 技术 应用 基于 Python 语言 思考题 参考答案 计算 案例
链接地址:https://www.yzwku.com/doc/1499295.html