互联网金融的结构化设计.pptx
《互联网金融的结构化设计.pptx》由会员分享,可在线阅读,更多相关《互联网金融的结构化设计.pptx(66页珍藏版)》请在优知文库上搜索。
1、大数据基础概念用5W1H了解大数据1. 为什么要研究大数据(WHY)2. 什么是大数据(WHAT)3. 哪里有大数据(WHERE)4. 大数据现在什么阶段(WHEN)5. 谁在做大数据(WHO)6. 大数据是一种方法(HOW)7. 大数据有哪些潜在价值(Value)8. 大数据有哪些关键的技术(Tachnology)目录能力向消费者转移数据竞争的压力大数据的激增 商业模式驱动社会在发生变革Google ,Facebook, 腾讯百度阿里彻底的改变了人们生活 你在读书,书在读你你在读书,书在读你数据是一种资产,成为商品构成成分、是一种资源数据是一种资产,成为商品构成成分、是一种资源4 土地 人口
2、农业社会 资本、技术,机器,能源工业时代 用户、数据信息时代v全球每秒钟发送 2.9 百万封电子邮件,一分钟读一篇的话,足够一个人昼夜不息的读5.5 年v每天会有 2.88 万个小时的视频上传到Youtube,足够一个人昼夜不息的观看3.3 年v推特上每天发布 5 千万条消息,假设10 秒钟浏览一条信息,这些消息足够一个人昼夜不息的浏览16 年v每天亚马逊上将产生 6.3 百万笔订单v每个月网民在Facebook 上要花费7 千亿分钟,被移动互联网使用者发送和接收的数据高达1.3EBvGoogle 上每天需要处理24PB 的数据v在web 2.0的时代,人们从信息的被动接受者变成了主动创造者U
3、GC时代到来* Truthfulness, accuracy or precision, correctnessVolume多多Velocity快快Veracity垃圾垃圾*Variety杂杂Data at restTerabytes to exabytes of existing data to processData in motionStreaming data, milliseconds to seconds to respondData in many formsStructured, unstructured, text, multimediaData in doubtUncert
4、ainty due to data inconsistency& incompleteness, ambiguities, latency, deception, model approximations全新的计算时代业务发展业务发展-DAAS模式精髓模式精髓IT比业务反应更快!比业务反应更快!BIBI,分析,分析& &多变量测试多变量测试 太多噪音数据 事后诸葛 依靠猜测重-设计重-发布新-平台每年每季每月调调整、商品化整、商品化&it优优化,化,业务业务改改进进 手动&高成本 仅提供前5%最热门内容 专家偏见开发开发&QA &QA 太多项目 茅盾的优先级 昂贵批准批准& &部署研究部署研究
5、 优先级问题 错过截止日期 与市场脱节系系统统自自动动升升级级使用群体智慧使用群体智慧少量少量IT参与参与实时实时自自动调节动调节用5W1H了解大数据1. 为什么要研究大数据(WHY)2. 什么是大数据(WHAT)3. 哪里有大数据(WHERE)4. 大数据现在什么阶段(WHEN)5. 谁在做大数据(WHO)6. 大数据是一种方法(HOW)7. 大数据有哪些潜在价值(Value)8. 大数据有哪些关键的技术(Tachnology)目录何为大?数据度量1Byte = 8 Bit1KB = 1,024 Bytes1MB = 1,024 KB = 1,048,576 Bytes1GB = 1,024
6、 MB = 1,048,576 KB = 1,073,741,824 Bytes1TB = 1,024 GB = 1,048,576 MB = 1,099,511,627,776 Bytes1PB = 1,024 TB = 1,048,576 GB =1,125,899,906,842,624 Bytes1EB = 1,024 PB = 1,048,576 TB = 1,152,921,504,606,846,976 Bytes1ZB = 1,024 EB = 1,180,591,620,717,411,303,424 Bytes1YB = 1,024 ZB = 1,208,925,819,6
7、14,629,174,706,176 Bytes大数据的“大“红楼梦含标点87万字(不含标点853509字)每个汉字占两个字节:1汉字=16bit = 2*8位=2bytes1GB 约等于671部红楼梦1TB 约等于631,903 部1PB 约等于647,068,911部美国国会图书馆藏书(151,785,778册)(2011年4月:收录数据235TB )中国国家图书馆:2631万册1EB = 4000倍美国国会图书馆存储的信息量600美元的硬盘就可以存储全世界所有的歌曲MGI估计,全球企业2010 年在硬盘上存储了超过7EB(1EB 等于10 亿GB)的新数据,同时,消费者在PC 和笔记本等
8、设备上存储了超过6EB 新数据专注于企业级大数据集群容量 约3200台服务器 物理CPU 30000核 内存 100TB 磁盘 36000块 存储容量 60PB阿里巴巴云梯一 数据规模(2012)集群负载 每天Job数 150,000+道 每天hive query数 6,000+ 每天扫描数据量 7.5PB 每天扫描文件数 4亿 存储利用率 80% CPU利用率65% 峰值80%阿里巴巴是数据信息流制造业用5W1H了解大数据1. 为什么要研究大数据(WHY)2. 什么是大数据(WHAT)3. 哪里有大数据(WHERE)4. 大数据现在什么阶段(WHEN)5. 谁在做大数据(WHO)6. 大数据
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 互联网 金融 结构 设计
