大数据分析技术.ppt
《大数据分析技术.ppt》由会员分享,可在线阅读,更多相关《大数据分析技术.ppt(25页珍藏版)》请在优知文库上搜索。
1、大数据应用的技术体系及潜在问题大数据应用的技术体系及潜在问题1. 大数据概述目录2. 大数据应用的技术体系3. 大数据应用所面临的问题4. 总结 1.1 1.1 大数据的定义大数据的定义 维基百科对大数据的定义是,所涉及的资料量的规模巨大到无法透过目前主流软件工具,在合理时间内达到撷取、管理、处理、并整理成为帮助企业经营决策更积极目的的各种资讯。 主流定义为3V,即规模性(Volume),多样性(Variety)和高速性(Velocity)。所谓规模性,就是数据的量达到了一定的高度,无法通过当前主流工具来及时处理;多样性指的是对于即将要处理的数据类型,除了有结构化的以外,还有半结构化和非结构化
2、的,增加了操作的复杂性;高速性是指数据的到达与处理必须及时高效,不允许较长的延迟。除此之外,隐私性与有价值性同样是大数据的主要特征。1 1.2 1.2 大数据带来的机遇和挑战大数据带来的机遇和挑战 随着大数据时代的到来,其中隐藏的商机也被各路商家发现和利用。美国Target百货公司通过一套客户分析工具,可以对顾客的购买记录进行分析,并随后通过购物手册的形式向顾客推荐一系列可能需要的商品;“京东”、“天猫”和“易购”等购物网站将其海量商品按照各种方式进行分类和推荐,大大增强了网站的可用性。不单是商家,大数据处理技术也给普通用户的日常生活带来了方便性和可靠性。购物网站可以使用户足不出户便可购买到廉
3、价优质的商品,地图软件让人们出门再也不用担心迷路的问题,“微信”、“微博”使得人们随时随地能够跟亲人、朋友联络交流,各种互动娱乐软件帮助人们打发无聊地时光等等。 1.3 1.3 大数据处理流程大数据处理流程 大数据处理流程包括:数据获取、数据集成、数据分析和解释3个阶段。 数据获取阶段主要是完成对外界数据源的接收和记录操作。其中对大数据的接收方式主要有传感器获取、网页点击获取、移动设备上应用服务的获取以及RFID获取等;对大数据的记录主要完成对元数据的选择,以便构建所需要的数据结构。 数据集成阶段主要完成对已接收数据的抽取、清洗和贮存等操作。 1)抽取抽取:由大数据的定义可知,获取的数据可能具
4、有多种结构和类型,数据抽取过程可以帮助我们将这些复杂的数据转化为单一的或者便于处理的构型,以达到快速分析处理的目的。2)清洗清洗:对于大数据,并不全是有价值的,有些数据井不是我们所关心的内容,而另一些数据则是完全错误的干扰项,如何“去噪”从而提取出有效数据对我们来说是个巨大挑战。其中一种做法是设计一些过滤器,通过某些规则将那些无用错误的数据过滤出去,防止对最后的分析工作产生影响。3)贮存贮存:将初步处理过得数据进行有效的存储至关重要,若是仅仅将这些记录随便地放入一个数据仓库中,将会造成其访问性受到障碍,从而导致了数据的难以复用。设计一个合适的数据库,可以有效地解决难以复用问题。数据库的选择可以
5、多种多样,针对特定数据设计的特定数据库将会更加高效、适用。数据分析和解释阶段:当用户提出查询请求时,我们需要做的就是进行及时地分析与建模,并将结果以用户可接受的方式返回给用户。这一阶段的用户查询可以是多种多样的,不同的查询输入应该得到对应的结果,即使面对用户的错误查询也应该给出相应的错误友好处理。大数据应用的技术和系统包括: 云计算及其编程模型云计算及其编程模型MapReduceMapReduce 大数据获取技术大数据获取技术 面向大数据处理的文件系统面向大数据处理的文件系统 数据库系统数据库系统 大数据分析技术大数据分析技术2TEXT HERETEXT HERETEXT HERETEXT H
6、ERE云计算及其编程模型云计算及其编程模型MapReduceMapReduce云计算定义:云计算定义:一个大规模的由规模经济驱动的分布式模型,位于其中的抽象的、虚拟的、动态可扩展的、可管理的计算能源、存储、平台、服务等通过因特网交付给外围客户。云计算能为大数据提供强大的存储和计算能力,可以迅速、方便地为大数据提供服务,另一方面,大数据的处理需求也为云计算提供了更多更好地应用场景。由此,云计算作为大数据的支撑技术而倍受业界关注。2004年,谷歌公司提出的MapReduce技术,以其利用大规模廉价服务器以达到并行处理大数据的目的而倍受学术界和工业界的关注,广泛应用于机器学习、数据挖掘等诸多领域。基
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 数据 分析 技术