(完整版)hadoop常见笔试题答案.docx

上传人：王**

文档编号：859519

上传时间：2024-02-04

格式：DOCX

页数：6

大小：32.64KB

《(完整版)hadoop常见笔试题答案.docx》由会员分享，可在线阅读，更多相关《(完整版)hadoop常见笔试题答案.docx（6页珍藏版）》请在优知文库上搜索。

1、Hadoop测试题一.填空题，1分（41空），2分（42空）共125分1 .（每空1分）datanode负责HDFS数据存储。2 .（每空1分）HDFS中的block默认保存3份。3 .（每空1分）ResourceManaNer程序通常与NameNode在一个节点启动。4 .（每空1分）hadoop运行的模式有：单机模式、伪分布模式、完全分布式.5 .（每空1分）Hadoop集群搭建中常用的4个配置文件为：COre-Site.xml、hdfs-site.xml、mapred-site.xml、Varn-Site.xml。6 .（每空2分）HDFS将要存储的大文件进行，hIL，分割后存放在既定的

2、存储块中，并通过预先设定的优化处理，模式对存储的数据进行预处理，从而解决了大文件储存与计算的需求。7 .（每空2分）一个HDFS集群包括两大部分，即namenode与datanode0一般来说，一个集群中会有一个namenode利I多个datanode共同工作。8 .（每空2分）namenode是集群的主服务器,主要是用于对HDFS中所有的文件及内容数据进行维护，并不断读取记录集群中血四血_主机情况与工作状态，并通过读取与写入镜像日志文件的方式进行存储。9 .（每空2分）datanode在HDFS集群中担任任务具体执行角色,是集群的工作节点。文件被分成若干个相同大小的数据块，分别存储在若干个d

3、atanode,datanode定期向集群内namenode发送自己的运行状态与存储内容，并根据namnode发送的指令进行工作。10 .（每空2分）namenode负责接受客户端发送过来的信息,然后将文件存储位置信息发送给client,由client直接与datanode进行联系,从而进行部分文件的运算与操作。IL（每空1分）block是HDFS的基本存储单元，默认大小是128M。12 .（每空1分）HDFS还可以对已经存储的BloCk进行多副本备份，将每个BlOCk至少复制到二个相互独立的硬件上，这样可以快速恢复损坏的数据。13 .（每空2分）当客户端的读取操作发生错误的时候，客户端会向n

4、amenode报告错误,并请求namenode排除错误的datanode后,重新根据距离排序，从而获得一个新的的读取路径。如果所有的血出血_都报告读取失败，那么整个任务就读取失败。14 .（每空2分）对于写出操作过程中出现的问题，FSDataoUtPUtStream并不会立即关闭。客户端向她怛型也报告错误信息，并直接向提供备份的血出曲中写入数据。备份datanode被升级为首选datanode,并在其余2个datanode中备份复制数据。NameNode对错误的DataNode进行标记以便后续对其进行处理。15 .（每空1分）格式化HDFS系统的命令为：hdfsnamenode-format。

5、16 .（每空1分）启动hdfs的shell脚本为：Start-dfs.sh17 .（每空1分）启动yarn的shell脚本为：Start-VarrLSh。18 .（每空1分）停止hdfs的shell脚本为：StOP-dfs.sh。19 .（每空1分）hadoop创建多级目录（如：abc）的命令为：hadoopfs-mkdir-pabc120 .（每空1分）hadoop显示根目录命令为：had。DfS-ISr。21 .（每空1分）hadoop包含的四大模块分别是：HadOoPCommon、HDFS、MaDredUCe、yarn022 .（每空1分）namenode默认的WebUI访问端口号为：

6、50070o23 .（每空1分）ResourceManager默认的WebUI访问端口号为：808824 .（每空1分）IiistoryServer默认的WebUI访问端口号为：1988825 .（每空1分）修改blocksize大小的属性是：dfs.blocksize,在hdfs-site.xml配置文件里。26 .（每空1分）HDFS中namenode的RPC端口号为：8021,其作用是：接收Qient连接的RPC端Ll,用于获取文件系统metadata信息。27 .（每空2分）Mapper类中有4个函数。28 .（每空1分）默认NameNOde周期性从DataNode接收心跳信号的时间间

7、隔为：3s。29 .（每空1分）hadoop集群默认机架感知是启用的。是否正确：错误.30 .（每空2分）HadoopMap/ReduceShuffle过程：inputsplit-map函数一内存缓冲区河PartitiOn-sort-combine-spill-map端mern-reduce端CoDV-mern-reduce函数，31 .（每空2分）一个NodeManager能够同时运行最大reduce任务数（默认）：2。32 .（每空2分）默认情况下，一个同时运行了namenode,secondarynamenode和ResourceManager的主节点，所使用的内存容量为3000M,33

8、 .（每空2分）Hadoop集群中有三种作业调度算法，分别为FIFO调度，计算能力调度和公平调度。34 .（每空1分）HA产生的背景是：为了解决单NN可能出现宕机导致集群不可用或数据丢失的问题。35 .（每空1分）通过ZoOkeePer管理两个或者多个NameNode,使一个NameNode为active状态,并且同步每个NN的元数据，如果active状态的NN宕机后马上启用状态为StandbV状态的备用节点。36 .（每空1分）iob是客户端需要执行的一个工作单元。37 .（每空1分）Hadoo。将作业分成若干个task来执行,其中包括：maptask和reducetasko38 .（每空2

9、分）combiner是通过RedUCer类来定义的。39 .（每空2分）maD任务将其输出写入到本地磁盘40 .（每空2分）reduce的输出通常存储在中以实现可靠存储。41 .（每空2分）HDFS会对写入的所有数据计算校验和，并在读取数据时验证和042 .（每空2分）序列化用于分布式数据处理的两大领域为：进程间通信和永久存储,43 .（每空2分）hadoop使用自己的序列化格式为：Writableo二.简答题，3分（。题），5分（5题）共75分1.（3分）简要描述如何安装配置apache的一个开源hadoop,只描述即可，无需列出具体步骤，列出具体步骤更好。答：1使用root账户登录2修改I

10、P3修改host主机名4配置SSH免密码登录5关闭防火墙6安装JDK7解压hadoop安装包8 配置hadoop的核心文件hadoop-env.sh,core-site.xml,mapred-site.xml,hdfs-site.xml9配置hadoop环境变量10 格式化hadoopnamenode-format11 启动节点Startall.sh2. （3分）请列出正常的hadoop集群中hadoop都分别需要启动哪些进程，他们的作用分别都是什么，请尽量列的详细一些。答：namenode：管理集群，存储数据的原信息，并管理记录datanode中的文件信息。secondarynamenode

11、：它是namenode的一个快照，会根据configuration中设置的值来决定多少时间周期性的去CP一下namenode,记录namenode中的metadata及其它数据。Datanode:存储数据ResourceManager:ReSoUrCeManager负责集群中所有资源的统一管理和分配，它接收来自各个节点（NodeManager）的资源汇报信息，并把这些信息按照一定的策略分配给各个应用程序（实际上是A叩IiCationManager）NodeManager:是YARN中每个节点上的代理，它管理Hadoop集群中单个计算节点（3分）请写出以下的ShHl命令（1）杀死一个job（2）

12、删除hdfs上的tmpaaa目录（3）加入一个新的存储节点和删除一个节点需要执行的命令答：（1） mapredjob-list得到job的id,然后执行mapredjob-killjobld就可以杀死一个指定jobld的job工作了。（2） hadoopfs-rmrtmpaaa或者hdfsdfs-rmrtmpaaa（3）增加一个新的节点在新的节点上执行hadoop-daemon.shstartdatanode然后在主节点中执行hdfsdfsadmin-refreshNodes删除一个节点的时候，只需要在主节点执行hdfsdfsadmin-refreshnodes3. （3分）请简述mapred

13、uce中的combine和partition的作用答：combiner是发生在map的最后一个阶段，其原理也是一个小型的reducer,主要作用是减少输出到reduce的个数，减少reducer的输入，提高reducer的执行效率。Partition的主要作用就是指定输出到reduce的个数的。4. （3分）hdfs的体系结构答：HDFS采用了主从（MaSter/Slave）结构模型，一个HDFS集群是由一个NameNOde和若干个DataNode组成的。其中NameNode作为主服务器，管理文件系统的命名空间和客户端对文件的访问操作；集群中的DataNOde管理存储的数据5. （3分）三个d

14、atanode中当有一个datanode出现错误时会怎样？答：当有一个datanode出现错误的时候，namenode会将那个datanode上的数据拷贝到其他的节点去进行存储。6. （3分）文件大小默认为64M,改为128M有什么影响？答：更改文件的block块大小，需要根据我们的实际生产中来更改block的大小，如果block定义的太小，大的文件都会被切分成太多的小文件，减慢用户上传效率，如果block定义的太大，那么太多的小文件可能都会存到一个block块中，虽然不浪费硬盘资源，可是还是会增加namenode的管理内存压力。7. （3分）NameNode与SecondaryNameNod

15、e的区别与联系？答：SeCOndaryNameNOde更像是NamenOde的一个冷备份，当namenode宕机之后，可以从SecondaryNamenode上面恢复部分数据。8. （5分）在一个运行的hadoop任务中，什么是InputSpIit?答：InPUtSPIit是MaPRedUCe对文件进行处理和运算的输入单位，只是一个逻辑概念，每个InputSpIit并没有对文件实际的切割，只是记录了要处理的数据的位置（包括文件的path和hosts）和长度（由start和Iength决定），默认情况下与block一样大。9. （3分）参考下列M/R系统的场景：hdfs块大小为64MB,输入类为FiIeInPUtFOrma3有3个文件的大小分别为64KB,65MB,127MB,Hadoop框架会把这些文件拆分为多少块？答：64k一个block65MB-两个文件：64MB是一个block,IMB是一个block127MB两个文件：64MB是一个block,63MB是一个block10. （5分）hadoop中RecordReader的作用是什么？答：RecOrderReader是一个接口，主要是用来读取文件的输入键值对的，我们也可以

文档加载中……请稍候！
如果长时间未打开，您也可以点击刷新试试。

下载文档到电脑，查找使用更方便

5 金币 0人已下载

下载	加入VIP,免费下载

版权申诉 word格式文档无特别注明外均可编辑修改；预览文档经过压缩，下载后原文更清晰！ 立即下载

配套讲稿：: 如PPT文件的首页显示word图标，表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
特殊限制：: 部分文档作品中含有的国旗、国徽等图片，仅作为作品整体效果示例展示，禁止商用。设计者仅对作品中独创性部分享有著作权。
关键词：: 完整版 hadoop 常见笔试答案

优知文库所有资源均是用户自行上传分享，仅供网友学习交流，未经上传用户书面授权，请勿作他用。

关于本文

本文标题：(完整版)hadoop常见笔试题答案.docx
链接地址：https://www.yzwku.com/doc/859519.html