第5章52ID3.ppt
《第5章52ID3.ppt》由会员分享,可在线阅读,更多相关《第5章52ID3.ppt(41页珍藏版)》请在优知文库上搜索。
1、1 第第 5 章章机器学习与数据挖掘机器学习与数据挖掘(2)5.2.1 基于互信息的基于互信息的ID3方法方法5.2.2 基于信息增益率的基于信息增益率的C4.5方法方法5.2.3 基于信道容量的基于信道容量的IBLE方法方法5.2.1 基于互信息的基于互信息的ID3方法方法决策树概念最早是决策树概念最早是1966年由年由EHunt提出的的提出的的CLS决策树学决策树学习算法。习算法。影响最大的是影响最大的是J.R.Quinlan于于1986年提出的改进年提出的改进CLS算法的算法的ID3方法,他提出用信息增益(方法,他提出用信息增益(information gain,即信,即信息论中的互信息
2、)来选择属性作为决策树的结点。息论中的互信息)来选择属性作为决策树的结点。由于决策树的建树算法思想简单,识别样本效率高的特点,使由于决策树的建树算法思想简单,识别样本效率高的特点,使ID3方法成为当时机器学习领域中最有影响的方法之一方法成为当时机器学习领域中最有影响的方法之一。1 1、决策树概念:、决策树概念:决策树是用样本的属性作为结点,用属性的取值作决策树是用样本的属性作为结点,用属性的取值作为分支的树结构。它是利用信息论原理对大量样本的属为分支的树结构。它是利用信息论原理对大量样本的属性进行分析和归纳而产生的。性进行分析和归纳而产生的。决策树方法的原理是信息论决策树方法的原理是信息论,信
3、息论是,信息论是C.E.ShannonC.E.Shannon为解决信息传递(通信)过程问题而建立为解决信息传递(通信)过程问题而建立的理论,也称为统计通信理论。的理论,也称为统计通信理论。n当前国际上最有影响的示例学习方法首推当前国际上最有影响的示例学习方法首推J.R.QuinlanJ.R.Quinlan的的ID3ID3。nID3ID3引进了信息论中的引进了信息论中的互信息互信息,他将其称为,他将其称为信信息增益(息增益(information gaininformation gain),作为特征判别作为特征判别能力的度量,并且将建树的方法嵌在一个迭代能力的度量,并且将建树的方法嵌在一个迭代的
4、中。的中。某天早晨气候描述为某天早晨气候描述为:天气天气:多云多云 气温气温:冷冷 湿度湿度:正常正常 风风:无风无风 在一实体世界中,每个实体用多个特征来描述。每在一实体世界中,每个实体用多个特征来描述。每个特征限于在一个离散集中取互斥的值。例如,设实体个特征限于在一个离散集中取互斥的值。例如,设实体是某天早晨,分类任务是关于气候的类型,特征为是某天早晨,分类任务是关于气候的类型,特征为:天气天气 取值为:取值为:晴,多云,雨晴,多云,雨 气温气温 取值为:取值为:冷冷 ,适中,热,适中,热 湿度湿度 取值为:取值为:高高 ,正常,正常 风风 取值为:取值为:有风,有风,无风无风n它属于哪类
5、气候(能否打高尔夫球)呢它属于哪类气候(能否打高尔夫球)呢?n每个实体属于不同的类别,为简单起见,假定仅有两个每个实体属于不同的类别,为简单起见,假定仅有两个类别,分别为类别,分别为P P,N N。在这种两个类别的归纳任务中,在这种两个类别的归纳任务中,P P类和类和N N类的实体分别称为概念的正例和反例。类的实体分别称为概念的正例和反例。n将一些已知的正例和反例放在一起便得到训练集。将一些已知的正例和反例放在一起便得到训练集。n下表给出一个训练集。由下表给出一个训练集。由ID3ID3算法得出一棵正确分类训算法得出一棵正确分类训练集中每个实体的决策树,见图。练集中每个实体的决策树,见图。NO.
6、属性属性类别类别天气天气气温气温湿度湿度风风1晴晴热热高高无风无风N2晴晴热热高高有风有风N3多云多云热热高高无风无风P4雨雨适中适中高高无风无风P5雨雨冷冷正常正常无风无风P6雨雨冷冷正常正常有风有风N7多云多云冷冷正常正常有风有风P8晴晴适中适中高高无风无风N9晴晴冷冷正常正常无风无风P10雨雨适中适中正常正常无风无风P11晴晴适中适中正常正常有风有风P12多云多云适中适中高高有风有风P13多云多云热热正常正常无风无风P14雨雨适中适中高高有风有风N天天 气气湿湿 度度风风晴晴雨雨多云多云高高正常正常有风有风无风无风P PN NN NP PP PID3ID3决策树决策树n决策树叶子为类别名
7、,即决策树叶子为类别名,即P P 或者或者N N。其它结点由实体的其它结点由实体的特征组成,每个特征的不同取值对应一分枝。特征组成,每个特征的不同取值对应一分枝。n若要对一实体分类,从树根开始进行测试,按特征的取若要对一实体分类,从树根开始进行测试,按特征的取值分枝向下进入下层结点,对该结点进行测试,过程一值分枝向下进入下层结点,对该结点进行测试,过程一直进行到叶结点,实体被判为属于该叶结点所标记的类直进行到叶结点,实体被判为属于该叶结点所标记的类别。别。n 用图来判本节开始处的具体例子,得该实体的类别用图来判本节开始处的具体例子,得该实体的类别为为P P类。类。n ID3ID3方法就是要从表
8、的训练集构造图这样的决策树。方法就是要从表的训练集构造图这样的决策树。n 实际上,能正确分类训练集的决策树不止一棵。实际上,能正确分类训练集的决策树不止一棵。n QuinlanQuinlan的的ID3ID3算法能得出结点最少的决策树。算法能得出结点最少的决策树。(一)主算法(一)主算法 1 1、从训练集中随机选择一个既含正例又含反例的子从训练集中随机选择一个既含正例又含反例的子集(称为集(称为 窗口窗口););2 2、用用“建树算法建树算法”对当前窗口形成一棵决策树;对当前窗口形成一棵决策树;3 3、对训练集(窗口除外)中例子用所得决策树进行对训练集(窗口除外)中例子用所得决策树进行类别判定,
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 52 ID3