大数据及技术介绍.pptx
《大数据及技术介绍.pptx》由会员分享,可在线阅读,更多相关《大数据及技术介绍.pptx(16页珍藏版)》请在优知文库上搜索。
1、大数据大数据大大数据的概念介绍数据的概念介绍Page 2大数据大数据(Big Data),或称巨量资料,指的是所涉及的资料量规模巨大到无法通过目前主流软件工具,在合理时间内达到撷取、管理、处理、并整理成为帮助企业经营决策更积极目的的资讯。非结构化数据的超大规模和增长总数据量的8090%比结构化数据增长快10倍到50倍是传统数据仓库的10倍到50倍大数据的异构和多样性很多不同形式(文本、图像、视频、机器数据)无模式或者模式不明显不连贯的语法或句义实时分析而非批量式分析数据输入、处理与丢弃立竿见影而非事后见效大量的不相关信息对未来趋势与模式的可预测分析深度复杂分析(机器学习、人工智能Vs传统商务智
2、能(咨询、报告等)大数据的大数据的构成构成Page 3大数据 = 海量数据 + 复杂类型的数据v海量交易数据:企业内部的经营交易信息主要包括联机交易数据和联机分析数据,是结构化的、通过关系数据库进行管理和访问的静态、历史数据。通过这些数据,我们能了解过去发生了什么。大数据包括:交易数据和交互数据集在内的所有数据集v海量交互数据:源于Facebook、Twitter、LinkedIn及其他来源的社交媒体数据构成。它包括了呼叫详细记录CDR、设备和传感器信息、GPS和地理定位映射数据、通过管理文件传输Manage File Transfer协议传送的海量图像文件、Web文本和点击流数据、科学信息、
3、电子邮件等等。可以告诉我们未来会发生什么。v海量数据处理:大数据的涌现已经催生出了设计用于数据密集型处理的架构。例如具有开放源码、在商品硬件群中运行的Apache Hadoop。大大数据引起的变革数据引起的变革Page 4大思维变革商业变革管理变革“更多”不是随机样本,而是全体数据“更杂”不是精确性,而是混杂性“更好”不是因果关系,而是相关关系“数据化”一切皆可“量化”“价值”“取之不尽,用之不竭”的数据创新“角色定位”数据、技术与思维的三足鼎立“风险”让数据主宰一切的隐忧“掌控”责任与自由并举的信息管理大数据的相关技术大数据的相关技术Page 5数据的采集数据的采集数据存储与管理数据存储与管
4、理数据分析与挖掘数据分析与挖掘结果展示结果展示ETL数据众包(CrowdCouring)结构化、非结构化和半结构化数据分布式文件系统分布式文件系统HDFS关系数据库非关系数据库(NoSQL)数据仓库(DWH)云计算和云存储实时流处理A/B测试关联规则分析分类聚类聚类遗传算法神经网络预测模型模式识别时间系列分析时间系列分析回归分析系统仿真机器学习机器学习优化空间分析社会网络分析自然语言分析MapReduceR语言标签云(Tag Cloud)聚类图(Clustergram)空间信息流(Spatial Information Flow)热图(Heatmap)大数据主要应用技术大数据主要应用技术Had
5、oopHadoopPage 6 据IDC的预测,全球大数据市场2015年将达170亿美元规模,市场发展前景很大。而Hadoop作为新一代的架构和技术,因为有利于并行分布处理 “大数据”而备受重视。 Apache Hadoop 是一个用java语言实现的软件框架,在由大量计算机组成的集群中运行海量数据的分布式计算,它可以让应用程序支持上千个节点和PB级别的数据。 Hadoop是项目的总称,主要是由分布式存储(HDFS)、分布式计算(MapReduce)等组成 。 优点:l可扩展:不论是存储的可扩展还是计算的可扩展都是Hadoop的设计根本。l经济:框架可以运行在任何普通的PC上。l可靠:分布式文
6、件系统的备份恢复机制以及MapReduce的任务监控保证了分布式处理的可靠性。l高效:分布式文件系统的高效数据交互实现以及MapReduce结合Local Data处理的模式,为高效处理海量的信息作了基础准备。HadoopHadoop包括以下模块包括以下模块: :Hadoop Common: 支持其他Hadoop模块的公用工具,包括 FileSystem(面向通用文件系统的抽象基类)、远程程序调用(RPC)和序列化库.Hadoop 分布文件系统分布文件系统(HDFS): 一个为访问应用数据提供高吞吐量的分布式文件系统。Hadoop YARN: 一个工作调度与集群资源管理的框架Hadoop Ma
7、pReduce: 一个基于YARN大数据集并行处理系统.HadoopHadoop成大数据成大数据的事实标准的事实标准 HDFSZooKeeperpAmbari是基于Web的对Hadoop集群进行管理的工具pAvro是一个数据序列化系统pMahout是一个可扩展的机器学习与数据挖掘库. pPig是一个基于Hadoop的大规模数据分析平台,Pig为复杂的海量数据并行计算提供了一个简易的操作和编程接口pChukwa是基于Hadoop的集群监控系统,由yahoo贡献phive是基于Hadoop的一个工具,提供完整的sql查询功能,可以将sql语句转换为MapReduce任务进行运行pZooKeeper
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 数据 技术 介绍