大数据分析课件.pptx
《大数据分析课件.pptx》由会员分享,可在线阅读,更多相关《大数据分析课件.pptx(75页珍藏版)》请在优知文库上搜索。
1、大数据引领我们走向数据智能化时代大数据引领我们走向数据智能化时代大数据分析大数据分析大数据的定义理解什么是大数据大数据时代的背景1大数据的定义理解大数据的“4V”特征2大数据的构成3大数据时代的背景 半个世纪以来,随着计算机技术全面融入社会生活,信息爆炸已经积累到了一个开始引发变革的程度。它不仅使世界充斥着比以往更多的信息,而且其增长速度也在加快。互联网(社交、搜索、电商)、移动互联网(微博)、物联网(传感器,智慧地球)、车联网、GPS、医学影像、安全监控、金融(银行、股市、保险)、电信(通话、短信)都在疯狂产生着数据。全球每秒钟发送 2.9 百万封电子邮件,一分钟读一篇的话,足够一个人昼夜不
2、息的读5.5 年每天会有 2.88 万个小时的视频上传到Youtube,足够一个人昼夜不息的观看3.3 年推特上每天发布 5 千万条消息,假设10 秒钟浏览一条信息,这些消息足够一个人昼夜不息的浏览16 年每天亚马逊上将产生 6.3 百万笔订单每个月网民在Facebook 上要花费7 千亿分钟,被移动互联网使用者发送和接收的数据高达1.3EBGoogle 上每天需要处理24PB 的数据数据量增加TBTBPBPBZBZBEBEB根据IDC 监测,人类产生的数据量正在呈指数级增长,大约每两年翻一番,这个速度在2020 年之前会继续保持下去。这意味着人类在最近两年产生的数据量相当于之前产生的全部数据
3、量。数据结构日趋复杂大量新数据源的出现则导致了非结构化、半结构化数据爆发式的增长这些由我们创造的信息背后产生的这些数据早已经远远超越了目前人力所能处理的范畴大数据时代正在来临大数据时代的背景20世纪90年代,数据仓库之父的Bill Inmon就经常提及Big Data。2011年5月,在“云计算相遇大数据”为主题的EMC World 2011 会议中,EMC 抛出了Big Data概念。大数据时代的背景体量Volume多样性Variety价值密度Value速度Velocity非结构化数据非结构化数据的超大规模和增长的超大规模和增长占占总数据量的总数据量的8090%8090%比结构化数据增长快比
4、结构化数据增长快1010倍到倍到5050倍倍是传统数据仓库的是传统数据仓库的1010倍到倍到5050倍倍大数据的大数据的异构和多样性异构和多样性很多不同形式(文本、图像、视频、机器数据)很多不同形式(文本、图像、视频、机器数据)无模式或者模式不明显无模式或者模式不明显不连贯的语法或句义不连贯的语法或句义大量的不相关信息大量的不相关信息对未来趋势与模式的可预测分析对未来趋势与模式的可预测分析深度复杂分析(机器学习、人工智能深度复杂分析(机器学习、人工智能VsVs传统商务传统商务智能智能( (咨询、报告等)咨询、报告等)实时分析实时分析而非批量式分析而非批量式分析数据输入、处理与丢弃数据输入、处理
5、与丢弃立竿见影而非事后见效立竿见影而非事后见效大数据的4V特征“大量化(Volume)、多样化(Variety)、快速化(Velocity)、价值密度低(Value)”就是“大数据”的显著特征,或者说,只有具备这些特点的数据,才是大数据。Value 价值价值 挖掘大数据的价值类似沙里淘金,从海量数据中挖掘稀疏但珍贵的信息. 价值密度低价值密度低,是大数据的一个典型特征是大数据的一个典型特征. 2010年海地地震,海地人散落在全国各地,援助人员为弄清该去哪里援助手忙脚乱。传统上,他们只能通过飞往灾区上空来查找需要援助的人群。 一些研究人员采取了一种不同的做法:他们开始跟踪海地人所持手机内部的SI
6、M卡,由此判断出手机持有人所处的位置和行动方向。正如一份联合国(UN)报告所述,此举帮助他们“准确地分析出了逾60万名海地人逃离太子港之后的目的地。”后来,当海地爆发霍乱疫情时,同一批研究人员再次通过追踪SIM卡把药品投放到正确的地点,阻止了疫情的蔓延。Variety 多样性多样性企业内部的经营交易信息;物联网世界中商品,物流信息;互联网世界中人与人交互信息,位置信息等是大数据的主要来源. 文本/图片/视频 等非非结构结构化化/ /半半结构结构化化数数据据能够在不同的数据类型中能够在不同的数据类型中, ,进行交叉分析的技术进行交叉分析的技术, ,是大数据的是大数据的核心技术之一核心技术之一.
7、.语义分析技术,图文转换技术,模式识别技术,地理信息技术等,都会在大数据分析时获得应用.非非结构结构化化数数据据相对于结构化数据而言,不方便用数据库二维逻辑表来表现的数据即称为非结构化数据,包括所有格式的办公文档、文本、图片、XML、HTML、各类报表、图像和音频/视频信息等等。Velocity 速度速度 1s 是临界点. 对于大数据应用而言,必须要在1秒钟内形成答案,否则处理结果就是过时和无效的. 实时处理的要求实时处理的要求, ,是区别大数据引用和传统数据仓库技术是区别大数据引用和传统数据仓库技术, ,BIBI技术的关键差别之一技术的关键差别之一.Volume 数据量数据量PBPB是大数据
8、層次的临界点是大数据層次的临界点. . KBKB-MBMB-GBGB-TBTB-PBPB-EBEB-ZBZB-YBYB-N NB B-DBDB大数据不仅仅是大数据不仅仅是“大大”多大?PB 级比大大更重要的是数据的复杂性数据的复杂性,有时甚至大数据中的小数据如一条微博就具有颠覆性的价值指指数数型增型增长长的海量的海量数数据据所有研究都表明,未来数年数据量会呈现指数增长。根据麦肯所有研究都表明,未来数年数据量会呈现指数增长。根据麦肯锡全球研究院(锡全球研究院(MGI)估计,全球企业)估计,全球企业2010年在硬盘上存储了年在硬盘上存储了超过超过7EB(1EB等于等于10亿亿GB)的新数据,而消费
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 数据 分析 课件