大数据分析与挖掘.pptx
《大数据分析与挖掘.pptx》由会员分享,可在线阅读,更多相关《大数据分析与挖掘.pptx(28页珍藏版)》请在优知文库上搜索。
1、大数据与机器学习 海量数据可广泛获得,所稀缺的是如何从中挖掘出智慧和观点。 Google 首席经济学家 Hal Varian 大数据分析主要依靠机器学习和大规模计算,机器学习已成为大数据的基石。 机器学习(Machine Learning, ML)是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。 简而言之,机器学习是一种通过利用数据,训练出模型,然后使用模型预测的一种方法。机器学习的常见用途统计分析与数据挖掘 应用一系列技术从大型数据库或数据仓库的
2、数据中提取人们感兴趣的信息和知识 这些信息和知识是隐含的、未知的、潜在有用的 表示为概念、规则、规律和模式等形式技术上的定义 新型的商业分析处理技术,帮助决策者寻找数据间潜在的关联,发现被忽略的因素 这些信息和因素对预测趋势和决策行为是至关重要的商业角度的定义 在没有明确假设的前提下去挖掘信息、发现知识 所获信息具有先前未知,有效和可实用三个特征与传统分析方法的区别什么是数据挖掘?数据分析与数据挖掘的区别数据分析数据分析数据挖掘数据挖掘数据量数据量一般不大数据量通常很大约束从一个既定假设(目标)出发可以不需要既定的假设(目标)对象针对数字化的数据可以针对数字化的数据,还可以针对声音,文本,图像
3、等结果对结果进行解释,呈现有效的信息结果有时不容易解释,着眼于预测未来,提出决策建议 数据分析数据分析只是在已定的假设、先验约束上处理原有计算方法,统计方法,将数据分析转化为信息,而这些信息如果需要进一步的获得认知,转化为有效的预测和决策,这时就需要数据挖掘数据挖掘 数据分析数据分析是把数据变成信息的工具,数据挖掘数据挖掘是把信息变成认知的工具,如果我们想要从数据中提取一定的规律(即认知)往往需要数据分析和数据挖掘结合使用。大数据分析与挖掘的常见用途1、自动预测趋势和行为 数据挖掘自动在大型数据库中寻找预测性信息,以往需要进行大量手工分析的问题如今可以迅速直接由数据本身得出结论。谷歌预测冬季流
4、感的传播初步锁定与流感相关的关键词条谷歌数据库用户搜索记录美国疾控中心记录的流感事件发生的区域和时间预测模型预测结果谷歌准确的预测出2009年甲型H1N1流感的爆发,并明确指出爆发地所在的州以及时间。与滞后的官方数据相比,谷歌成为一个更有效及时的指示者。优化词条筛选大数据分析与挖掘的常见用途2、关联分析 数据关联是数据库中存在的一类重要的可被发现的知识。若两个或多个变量的取值之间存在某种规律性,就称为关联。关联可分为简单关联、时序关联、因果关联。关联分析的目的是找出数据库中隐藏的关联网。有时并不知道数据库中数据的关联函数,即使知道也是不确定的,因此关联分析生成的规则带有可信度。 购物篮分析顾客
5、顾客一次购买商品一次购买商品1面包、黄油、啤酒、尿布啤酒、尿布、牛奶2咖啡、糖、小甜饼、鲑鱼3面包、黄油、咖啡、尿布尿布、牛奶、鸡蛋、啤酒啤酒4面包、黄油、鲑鱼、鸡5鸡蛋、面包、黄油6啤酒啤酒、鲑鱼、尿布尿布、牛奶7番茄、啤酒、虾、苹果8土豆、面包、牛奶、生菜9啤酒啤酒、面包、尿布尿布、咖啡10茶叶、鸡蛋、盐、啤酒经过关联分析,发现顾客经常同时购买的产品中,啤酒与尿布啤酒与尿布同时出现的频率最高大数据分析与挖掘的常见用途3、聚类 数据库中的记录可被化分为一系列有意义的子集,即聚类。聚类增强了人们对客观现实的认识,是概念描述和偏差分析的先决条件。经过对电信行业用户的特征进行聚类,可以完成客户的画
6、像,可以基于多个维度完成画像,也可以基于关联分析的基础上进行降维处理后再开展画像。年龄收入话费支出群体A:年龄50岁以上 年收入20K以下 月话费支出50元以下群体B:年龄3050岁 年收入80K以上 月话费支出200元以上群体C:年龄2030岁 年收入50K 月话费支出100元大数据分析与挖掘的常见用途4、概念描述 概念描述就是对某类对象的内涵进行描述,并概括这类对象的有关特征。概念描述分为特征性描述和区别性描述,前者描述某类对象的共同特征,后者描述不同类对象之间的区别。生成一个类的特征性描述只涉及该类对象中所有对象的共性。生成区别性描述的方法很多,如决策树方法、遗传算法等。序号序号按时还款
7、按时还款婚姻状态婚姻状态应纳税收入应纳税收入诈骗嫌疑诈骗嫌疑1是单身125K否2否已婚100K否3否单身70K否4是已婚120K否5否离异95K是6否已婚60K否7是离异220K否8否单身85K是9否已婚75K否10否单身90K是按时还款否婚姻状态是否应纳税收入否单身.离异已婚否是80K 决策树大数据分析与挖掘的常见用途4、概念描述 概念描述就是对某类对象的内涵进行描述,并概括这类对象的有关特征。概念描述分为特征性描述和区别性描述,前者描述某类对象的共同特征,后者描述不同类对象之间的区别。生成一个类的特征性描述只涉及该类对象中所有对象的共性。生成区别性描述的方法很多,如决策树方法、遗传算法等。
8、大数据分析与挖掘的常见用途5、偏差检测 数据库中的数据常有一些异常记录,从数据库中检测这些偏差很有意义。偏差包括很多潜在的知识,如分类中的反常实例、不满足规则的特例、观测结果与模型预测值的偏差、量值随时间的变化等。偏差检测的基本方法是,寻找观测结果与参照值之间有意义的差别。 一个人的年龄为-999可能是程序处理缺省数据的方式导致的一个公司的高管工资明显高于普通员工可能成为异常数据但也许是合理的一部住宅电话的话费由每月200元以内增加到数千元可能因为盗打或其他原因所致一张信用卡突然出现明显的高额消费也许是因为盗用的信用卡1、异常数据与众不同,往往具有相对性 如高与矮、疯子与常人2、常用的检测方法
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 数据 分析 挖掘