第5章数据挖掘.ppt
《第5章数据挖掘.ppt》由会员分享,可在线阅读,更多相关《第5章数据挖掘.ppt(33页珍藏版)》请在优知文库上搜索。
1、第第5 5章章 数据挖掘数据挖掘本章内容本章内容 5.1 大数据挖掘概念 5.2 大数据挖掘概念 5.3 数据挖掘流程数据挖掘的常用方法实验5 数据挖掘5.1.1 5.1.1 数据挖掘的数据挖掘的起源起源 从我们的观点来看,大部分数据挖掘问题和相应的解决方法都起源于传统的数据分析。数据挖掘起源于多种学科,其中最重要的两门是统计学和机器学习,统计学起源于数学,因此,它强调数学上的精确。在实践测试之前,在理论基础上建立一些东西的要求是明智的,相比之下,机器学习更多地起源于计算机实践。这就导致了实践的倾向,自觉地对一些东西进行检验来查看它表现的好坏,而不是去等待有效性的正式证据。5.1 5.1 大大
2、数据挖掘概念数据挖掘概念5.1.2 5.1.2 数据挖掘的数据挖掘的定义定义 数据挖掘(Data mining),又译为资料探勘、数据采矿。它是数据库知识发现(Knowledge-Discovery in Databases,简称:KDD)中的一个步骤。数据挖掘一般是指从大量的数据中通过算法搜索隐藏于其中信息的过程。数据挖掘通常与计算机科学有关,并通过统计、在线分析处理、情报检索、机器学习、专家系统(依靠过去的经验法则)和模式识别等诸多方法来实现上述目标。5.2.1 5.2.1 数据总结数据总结 数据总结目的是对数据进行浓缩,给出它的总体综合描述。通过对数据的总结,数据挖掘能够将数据库中的有关
3、数据从较低的个体层次抽象总结到较高的总体层次上,从而实现对原始基本数据的总体把握。最简单的数据总结方法是利用统计学中的传统方法,计算出数据库中各个数据项的总和、平均、方差、最大值、最小值等基本描述统计量。或者通过利用统计图形工具,对数据制作直方图、饼状图等。利用OLAP(On Line Processing)技术(即联机分析处理技术)实现数据的多维查询也是一种广泛使用的数据总结的方法。5.2 5.2 数据挖掘任务数据挖掘任务5.2.2 5.2.2 分类分类 分类的主要功能是使用一个分类函数或分类模型(也常常称作分类器),该模型能够根据数据的属性将数据分派到不同的组中。即:分析数据的各种属性,并
4、找出数据的属性模型,确定哪些数据属于哪些组。这样我们就可以利用该模型来分析已有数据,并预测新数据将属于哪一个组。分类应用的实例很多。例如,我们可以将银行网点分为好、一般和较差三种类型,并依此分析这三种类型银行网点的各种属性,特别是位置、盈利情况等属性,并决定它们分类的关键属性及相互间关系。此后就可以根据这些关键属性对每一个预期的银行网点进行分析,以便决定预期银行网点属于哪一种类型。5.2.3 5.2.3 关系分析关系分析 关联分析的目的是找出数据库中隐藏的关联网,描述一组数据项目的密切度或关系。有时并不知道数据库中数据的关联是否存在精确的关联函数,即便知道也是不确定的,因此关联分析生成的规则带
5、有置信度,置信度级别度量了关联规则的强度。5.2.45.2.4 聚类聚类 当要分析的数据缺乏描述信息,或者是无法组织成任何分类模式时,可以采用聚类分析。聚类分析是按照某种相近程度度量方法,将用户数据分成一系列有意义的子集合。每一个集合中的数据性质相近,不同集合之间的数据性质相差较大。统计方法中的聚类分析是实现聚类的一种手段,它主要研究基于几何距离的聚类。人工智能中的聚类是基于概念描述的。概念描述就是对某类对象的内涵进行描述,并概括这类对象的有关特征。概念描述分为特征性描述和区别性描述,前者描述某类对象的共同特征,后者描述不同类对象之间的区别。5.3.1 5.3.1 业务理解业务理解(1)确定业
6、务目标(2)形式评估(3)确定数据挖掘目标(4)制订项目实施计划5.3 数据挖掘流程5.3.2 5.3.2 数据数据理解理解(1)数据的初步收集(2)数据描述(3)数据的探索性分析(4)数据质量检验5.3.3 5.3.3 数据数据准备准备(1)选择数据(2)数据清洗(3)数据构建(4)数据融合(5)数据格式化5.3.4 5.3.4 建立建立模型模型(1)选择建模技术(2)生成模型(3)建立模型(4)评估模型5.3.5 5.3.5 结果评价结果评价 在大多数情况下,数据挖掘模型应该有助于决策。因此,要对这种模型进行说明以使模型有用,因为人们不会在复杂的“黑箱模型”的基础上作决策。注意,模型准确性
7、的目标和模型说明的准确性的目标有点互相矛盾。一般来说,简单的模型容易说明,但是其准确性就差一些。5.4 5.4 数据挖掘的常用方法数据挖掘的常用方法 数据挖掘方法是由人工智能、机器学习的方法发展而来,结合传统的统计分析方法、模糊数学以及科学计算可视化技术,以数据库为研究对象,形成的数据挖掘的方法和技术。数据挖掘常用的技术可以分为六大类:归纳学习方法、仿生物技术、公式发现、统计分析方法、模糊数学方法、可视化技术。5.4.1 5.4.1 决策树决策树 决策树起源于概念学习系统CLS(Concept Learning System)。决策树方法就是利用信息论的原理建立决策树。该类方法的实用效果好,影
8、响较大。决策树可高度自动化地建立起易于为用户所理解的模型,而且,系统具有较好地处理缺省数据及带有噪声数据等能力。1、决策树表示法 决策树是一树状结构,它从根节点开始,对数据样本(由实例集组成,实例有若干属性)进行测试,根据不同的结果将数据样本划分成不同的数据样本子集,每个数据样本子集构成一子节点。生成的决策树每个叶节点对应一个分类。构造决策树的目的是找出属性和类别间的关系,用它来预测将来未知类别的记录的类别。这种具有预测功能的系统叫决策树分类器。2、决策树构造思想 构造一个决策树分类器通常分为两步:树的生成和剪枝。决策树的生成是一个从上至下,“分而治之”(Divide-And-Conquer)
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 数据 挖掘