大数据教程01第一章大数据概述.pptx
《大数据教程01第一章大数据概述.pptx》由会员分享,可在线阅读,更多相关《大数据教程01第一章大数据概述.pptx(52页珍藏版)》请在优知文库上搜索。
1、大数据基础教程Fundamentals of Big Data教材王成良,廖军:大数据基础教程清华大学出版社,2020年参考书林子雨:大数据技术原理与应用人民邮电出版社.2017.1宋旭东:大数据技术基础清华大学出版社,2020年大数据基础教程 Fundamentals of Big Data1.1 大数据发展背景概述1.2 大数据相关概念及特点1.3 大数据应用过程1.4 大数据技术1.5 大数据应用行业1.6 大数据的挑战和机遇本章目标了解大数据的发展背景掌握大数据的基本特点和基本应用流程了解大数据在行业中的应用了解大数据在发展中的机遇和挑战1.1.1 引言1.1.2 发展历程大数据指的是
2、无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要采用新的处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。大数据还代表着处理这些数据集合或信息资产的技术手段,也代表了信息技术的新时代。随着IT社区日益庞大,全球的大数据技术和服务市场,都有着巨大的收益。大数据的市场融合技术以及服务,正在形成迅猛发展的势头。学习掌握大数据技术,不仅是提高自身的竞争优势,同时也是顺应时代的要求。1.1.1 引言1.1.2 发展历程20012008200920102011提出数据增长的挑战和机遇有三个方向:量、速与多变。提出“BigData”的概念。大数
3、据得到较为广泛的认可。欧洲领先的研究型图书馆与科技信息研究机构建立伙伴关系。工信部发布的物联网“十二五规划”,信息处理技术被作为4 项关键技术创新工程之一被提出来。德国联邦政府启动“数字德国2015”战略,实现全球互联。20122013201420152016联合国在纽约发布大数据政务 的 白 皮 书大数据促发展:挑战与机遇。互联网巨头发布机器学习产品。“大数据”成为国内热议词汇。大数据的在企业中的应用比例逐步上升。大数据“十三五”规划出台。1.1 大数据发展背景概述1.2 大数据相关概念及特点1.3 大数据应用过程1.4 大数据技术1.5 大数据应用行业1.6 大数据的挑战和机遇1.2.1
4、大数据特点1.2.2 相关概念介绍大数据基本特点可以用“4V”来描述,也就是容量(Volume)、多样(Variety)、价值(Value)和速度(Velocity)。“4V”说明说明容量容量(Volume)大数据的数据量很大,超大的数据量决定了需要考虑的数据价值和潜在信息;同时也决定了计算的规模。多样多样(Variety)多样指大数据数据类型的多样性,大数据包含着半结构化、非结构化的数据。价值价值(Value)海量的大数据中,真正有价值的数据可能很少,因此从整体来看,大数据的价值密度低。速度速度(Velocity)速度一方面指的数据增长迅速,另一方面也表示了大数据的时效性。1.2.1 大数据
5、特点1.2.2 相关概念介绍1.云计算(Cloud computing)NIST定义:云计算是一种按使用量付费的模式。中国云计算专家刘鹏教授定义:“云计算是通过网络提供可伸缩的廉价的分布式计算能力。” 2.集群(Clustering)指将多台计算机或者服务器通过物理上以及软件上的部署,使其像一台计算机一样被使用。集群强调的是扩展。3.分布式(Distribute)指是将任务或者数据切分到不同的服务器进行计算或者存储,分布式强调的是切分。4.数据挖掘(Data mining)通过算法从海量的数据中搜寻隐藏的有意义的信息,这一过程被称之为数据挖掘。1.1 大数据发展背景概述1.2 大数据相关概念及
6、特点1.3 大数据应用过程1.4 大数据技术1.5 大数据应用行业1.6 大数据的挑战和机遇1.3.1 数据采集1.3.2 预处理1.3.3 数据存储管理1.3.4 数据挖掘分析对数据进行采集是大数据应用生命周期中的第一个环节,通常是使用ETL(Extract-Transform-Load)工具将分布的、异构的数据源中的数据。采集的方法主要包括以下三类:1.系统日志采集系统日志采集:收集业务日志数据供离线和在线的分析系统使用。目前常用的开源日志收集系统有Flume、Scribe等。2.网络数据采集网络数据采集:网络数据采集是指通过网络爬虫或调用网站公开API等方式从网站上获取数据的过程。3.数
7、据库采集数据库采集:一些企业会使用传统的关系型数据库MySQL或者Oracle等来存储数据。此外,像Redis和MongoDB这样的NoSQL数据库也常用于数据库的采集。1.3.1 数据采集1.3.2 预处理1.3.3 数据存储管理1.3.4 数据挖掘分析数据预处理是对采集到的原始数据进行清洗、填补、平滑、合并、规格化以及检查一致性等操作的过程。数据预处理通常包含以下三个部分:1.数据清理数据清理:对源数据进行过滤、去噪,从中提取出有效的数据,主要的处理内容包含:遗漏值处理、噪音数据处理、不一致数据处理。2.数据集成与变换数据集成与变换:将多个数据源中的数据整合到一个数据库的过程。集成数据需要
8、重点解决模式匹配、数据冗余、数据值冲突检测与处理三个问题。3.数据规约数据规约:数据规约主要包括:数据聚集、维规约、数据压缩、数值规约和概念分层等。使用数据规约技术可以将数据集进行规约表示,在减小数据集规模的同时能保持原数据的完整性。1.3.1 数据采集1.3.2 预处理1.3.3 数据存储管理1.3.4 数据挖掘分析将采集到的数据进行预处理后,需要将其存储起来,便于管理和调用。用来对大数据进行存储和管理的数据库系统:1.分布式文件存储系统分布式文件存储系统:主要特点是将复杂的问题进行分解,将大任务分解为多个小任务,然后通过使用多个处理器或多个计算机节点来进行计算从而提高解决问题的效率。2.N
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 数据 教程 01 第一章 概述
