云计算PIG的使用.docx
《云计算PIG的使用.docx》由会员分享,可在线阅读,更多相关《云计算PIG的使用.docx(67页珍藏版)》请在优知文库上搜索。
1、云计算pig运用Hadoop的普及和其生态系统的不断壮大并不令人感到意外.Hadoop不断进步的一个特殊领域是Hadoop应用程序的编写,虽然编写Map和Reduce应用程序并不特别困难,但这典编程的确须要一线软件开发阅历,ApachePig变更了这种状况,它在MapReduce的权础上创建了更陆洁的过程语言抽象,为Hadoop应用程序供应了一种更加接近结构化查询谱吉(SQ1.)的接口因此,您不须要爆写一个单独的MapReduce应用程序,您可以用Pig1.atin语言写一个脚本,在集群中自动并行处理与分发该脚本.Pig1.atin示例让我们从一个简洁的Pig示例起先介绍.并剖析该示例.Had
2、oop的一个好玩的用法是,在大型数据毙中搜寻满度:某个给定搜寻条件的记录(在UnuW中被称为grep)。清单1显示了在Pig中实现该过程的筒洁性,在所显示的三行代码中,只有一行是JXiE的搜寻。第一行只是将测试数据集(消息日志)读收到代表元组集合的包中.用一个正则表达式来筛选该数抵(元组中的惟一条目,表示为$0或fie1.d1),然后查找字符序列WARN.最终.在主机文件系统中将这个包存储在一个名为Wammg的新文件中,这个包现在代表来自消息的包含WARN的全部元组。清单1.个简沽的Pig1.at1.n脚本messages=1.OADmessages;warns三FI1.TERmessages
3、BY$0MATCHES.WARN*.*;STOREwarnsINTOwarnings;如您所见,这个简沽的那本实现了一个简沽的流,但是,暇如干脆在传统的MapReduce模里中实现它,则须要增加大埴的代码,这使得学习Hadoop并起先运用数据比原始开发简洁得多.现在让我们更深化地探付Pig语言,然后在看该语言的一些功能的其他示例,回页首Pig1.atin的荔础学问Pig1.atin是一个相对简洁的语言,它可以执行语句,阿语句就是一个操作,它须要怆入些内容(比如代.表一个元组集的包),并发出另一个包作为其输出。一个包就是一个关系,与表类似,先可以在关系数据库中找到它(其中,元现代表行,并且短个元
4、羽都由字段如成),用p1g1.atin编写的脚本往往遵他以下特定格式,从文件系统读取数据,对数据执行系列操作以种或多种方式转换它),然后,将由此产生的关系写回文件系统,您可以在清单1中看到该模式的报商沽形式(一个转换Pig拥有大足的数据类型,不仅支持包、元组和映射等高级概念,还支持简洁的数据类型.如Int、1.ong%f1.oatdoub1.echararrafnbytearray.假如运用简沽的类型,您会发觉,除了称为bincond的条件运算符(其操作类似于CternarY运笄符)之外,还有其他很多笄术运算符(比如add.subtract.mu1.tip1.y,divide和modu1.e)
5、.并且.如您所期望的那样还有一套完整的比较运算符,包括运用正则表达式的丰富匹泡模式.全部Pig1.atin语句都须要对关系进行操作并被称为关系运驾符)。IE如您在清单1中看到的,有一个运算符用于从文件系统加规数据和符数据存储到文件系统中.有一种方式可以通过迭代关系的行来FI1.TER数据.此功能常用于从后续操作不用须要的关系中捌除数据.兄外,假如您须要对美系的列进行迭代,而不是而行进行迭代,您可以运用FOREACH运算符。FOREAcH允许进行嵌套操作,如FI1.TER和ORDER,以便在迭代过程中转换数据。ORDER运算符供应了基于一个说多个字段对关系进行排序的功能,JOIN运兑符基于公共字
6、段执行两个或两个以上的关系的内部或外部族接。SP1.IT运獴符供应了依据用户定义的表达式将一个关系拆分成两个或两个以上关系的功能。最终,GROUP运算符依据某个表达式将数据分组成为一个或多个关系.表1供应了Pig中的部分关系运算符列表.表1.Pig1.atin关系运修符的不完整列表运算符描述FI1.TER基于某个条件从关系中选择一组元组.FOREACH对某个关系的元祖进行迭代,生成一个数据转换.GROUP将数据分组为一个或多个关系JOIN联接两个或两个以上的关系(内部或外部联接).1.OAD从文件系统加教数据.ORDER依据一个或多个字段对关系进行排序。SP1.IT将一个关系划分为两个或两个以
7、上的关系.STORE在文件系统中存储数据.虽然这不是一个详尽的P1.g1.at1.n运算符清单,但该表供应了一套在处理大型数据集时特别有用的操作。您可以通过参考资料了解完整的Pig1.atin语言,因为P有一套不错的在线文档,现在尝试着手编写一些Pi61.atin脚本,以了解这些运算符的实际工作状况.回页首狭得Pg在有关Hadoop的早期文率中,我采纳的方法是籽Hadoop安装和配置为一个软件包,仅C1.oudera通过用1.inux符它打包为一个虚拟设爵.使得Hadoop更易于运用.虽然它是一个较大的下坡,但它已预建立井北置了虚拟机(VM).其中不仅有HadoOP.还包括了ApacheHiv
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 计算 PIG 使用
