大数据概述及其数据分析案例.pptx
《大数据概述及其数据分析案例.pptx》由会员分享,可在线阅读,更多相关《大数据概述及其数据分析案例.pptx(34页珍藏版)》请在优知文库上搜索。
1、 大数据概论 大数据总述大数据处理框架大数据分析、挖掘大数据可视化展示大数据应用案例大数据总述大数据概念 研究机构Gartner给出了这样的定义。“大数据”是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力来适应海量、高增长率和多样化的信息资产。 大数据指的是所涉及的数据规模大到无法通过人脑甚至主流软件工具,在合理时间内达到采集、存储、分析、并整理成为帮助企业更好地经营决策的资讯。 “大数据”这一概念的提出。 全球知名咨询公司麦肯锡大数据:下一个创新、竞争和生产率前沿提出:数据已经渗透到当今每一个行业和业务领域,成为重要的生产因素。麦肯锡应该是比较早进行研究和应用大数据的公司,但并
2、不是首次提出这个概念的。 DT大数据特点多样性多样性-Variety-Variety快速性快速性-Velocity-Velocity4V4V特征特征真实性真实性-Veracity-Veracity大容量大容量- -VolumnVolumn数据规模大,而且大规模增长 数据来源渠道广泛,类型复杂多变 不仅是采集速度快,而且要求处理速度快 数据的准确度和数据价值密度是否高 大数据技术的战略意义不在于掌握庞大的数据信息,而在于对这些含有意义的数据进行专业化处理。换而言之,如果把大数据比作一种产业,那么这种产业实现盈利的关键,在于提高对数据的“加工能力”,通过“加工”实现数据的“增值”。 大数据的重点不
3、在于“大”,而在于数据本身。人工智能 (AI) 机器学习 (ML)深度学习(DL) 大数据(Big Data)几大领域间的图谱关系大数据处理框架大数据主流处理框架 Hadoop是一种专是一种专用于批处理的大数用于批处理的大数据框架。据框架。Hadoop包包含多个组件:含多个组件: HDFS、YARN、MapReduce。通过配合使用可处通过配合使用可处理批数据。理批数据。Hadoop的 处 理 功 能 来 自的 处 理 功 能 来 自MapReduce引擎。引擎。 Storm是一种流式是一种流式处理框架,常用于实时处理框架,常用于实时分析、机器学习、持续分析、机器学习、持续计算、分布式远程调用
4、计算、分布式远程调用和和ETL等领域。等领域。Storm的的部署管理简单,在同类部署管理简单,在同类的 流 式 计 算 工 具 ,的 流 式 计 算 工 具 ,Storm的性能也是出众。的性能也是出众。 Spark是包含流处理是包含流处理能力的批处理框架,可能力的批处理框架,可作为独立集群,或可与作为独立集群,或可与Hadoop集 成 并 取 代集 成 并 取 代 MapReduce引擎。与引擎。与M a p Re d u c e 不 同 ,不 同 ,Spark的数据处理工作的数据处理工作全部在内存中进行,且全部在内存中进行,且所有中间态的处理结果所有中间态的处理结果均存储在内存中。均存储在内
5、存中。 Samza是一种与是一种与Kafka消息系统紧密绑消息系统紧密绑定的流处理框架。虽定的流处理框架。虽然然Kafka可用于很多流可用于很多流处理系统,但按照设处理系统,但按照设计,计,Samza可以更好地可以更好地发挥发挥Kafka独特的架构独特的架构优势和保障。优势和保障。 Flink是一种可以是一种可以处理批处理任务的处理批处理任务的流处理框架。该技流处理框架。该技术可将批处理数据术可将批处理数据视作具备有限边界视作具备有限边界的数据流,借此将的数据流,借此将批处理任务作为流批处理任务作为流处理的子集加以处处理的子集加以处理。为所有处理任理。为所有处理任务采取流处理为先务采取流处理为
6、先的方法会产生一系的方法会产生一系列有趣的副作用列有趣的副作用。HadoopHadoop生态 分布式文件系统是Hadoop最核心的部件,主管数据存储。它是一个高度容错的系统,能检测和应对硬件故障,用于在低成本的通用硬件上运行。HDFS简化了文件的一致性模型,通过流式数据访问,提供高吞吐量应用程序数据访问功能,适合带有大型数据集的应用程序。HDFS(Hadoop Distributed File System) MapReduce是一种计算模型,用以进行大数据量的计算。其中Map对数据集上的独立元素进行指定的操作,生成键-值对形式中间结果。Reduce则对中间结果中相同“键”的所有“值”进行规约
7、,以得到最终结果。Mapreduce HBase是一个针对结构化数据的面向列的数据库。提供了对大规模数据的随机、实时读写访问。HBase中保存的数据可以使用MapReduce来处理,它将数据存储和并行计算完美地结合在一起。HbaseHadoop 程序运行原理SparkSpark整体架构 Spark提供了多种高级工具:提供了多种高级工具:Spark SQL应用于即时查询、应用于即时查询、Spark Streaming应用于流应用于流式计算、式计算、Mllib应用于机器学习、应用于机器学习、GraphX应用于图处理。应用于图处理。 Spark可以基于自带的可以基于自带的standalone集群管理
8、器独立运行,也可以部署在集群管理器独立运行,也可以部署在Apach Mesos和和Hadoop YARN等集群管理器上运行。等集群管理器上运行。 Spark可以访问存储在可以访问存储在HDFS、Hbase、本地文件系统等上的数据,支持文本文件以、本地文件系统等上的数据,支持文本文件以及任何及任何Hadoop的的InputFormat。Spark 特点高效性易用性无缝性全面性 Spark可以与Hadoop无缝结合:使用YARN作为它的资源管理器。并可以读取HDFS、Hbase等一切Hadoop的数据。 Spark基于内存的计算比Hadoop的MR快近100倍。 基于硬盘的计算比MR快10倍。 S
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 数据 概述 及其 分析 案例