《机器学习基础及应用》教案第6课使用k近邻算法实现分类与回归.docx
《《机器学习基础及应用》教案第6课使用k近邻算法实现分类与回归.docx》由会员分享,可在线阅读,更多相关《《机器学习基础及应用》教案第6课使用k近邻算法实现分类与回归.docx(9页珍藏版)》请在优知文库上搜索。
1、课题使用k近邻算法实现分类与回归课时2课时(90min)教学目标知识技能目标:(1)掌握k近邻算法解决分类问题的基本原理(2)掌握k近邻算法解决回归问题的基本原理(3)了解k近邻算法的常见问题及解决方法(4)掌握k近邻算法的Skleam实现方法(5)能够使用k近邻算法训练分类模型(6)能够使用k近邻算法训练回归模型(7)能够编写程序,寻找最优的k值素质目标:了解科技前沿新应用,开阔视野,抓住机遇,展现新作为增强创新意识,培养探究精神教学重难点教学重点:k近邻算法解决分类问题和回归问题的基本原理,k近邻算法的常见问题及解决方法,k近邻算法的Sklearn实现方法教学难点:使用k近邻算法训练分类模
2、型和回归模型;编写程序,寻找最优的k值教学方法案例分析法、问答法、讨论法、i井授法教学用具电脑、投影仪、多媒体课件、教材教学过程主要教学内容及步骤课前任务【教师】布置课前任务,和学生负责人取得联系,让其提醒同学通过APP或其他学习软件,完成课前任务,扫码观看“k近邻算法基本原理”视频,并思考以下问题:k近邻算法可以解决哪两类问题?解决的原理是什么?【学生】完成课前任务考勤【教师】使用APP迸行签到【学生】班干部报请假人员及原因问题导入【教师】提出以下问题:k近邻算法解决分类问题的基本原理曷十么?【学生】思考、举手回答传授新知【教师】通过学生的回答引入要讲的知识,介绍k近邻算法的基本原理、k近邻
3、算法的Sklearn实现等知识4.1 k近邻算法的基本原理k近邻算法(k-NearestNeighbor,kNN)由科弗和哈特提出,是机器学习中最简单也是应用最广泛的算法之一,它根据距离函数计算待测样本与所在特征空间中各个样本的距离,找到距离待测样本最近的k个样本,依此判定待测样本属于某类或用于回归计算。4.1.1 k近邻算法的原理分析1.k近邻算法解决分类问题的原理k近邻算法解决分类问题的原理是给定一个训练数据集,对新输入的样本,在训练数据集中找到与该样本距离最邻近的k个样本(也就是k个邻居),若这k个样本中多数属于某个类别,就把该输入样本划分为这个类别。要寻找与新输入样本最邻近的k个样本,
4、需要计算两点之间的距离,此时,可使用欧式距离进行计算.假设两个点的坐标分别为D和为),则这两点之间的欧式距离公式为=J(2%)2+(%一)?【教师】通过多媒体展示“k近邻算法解决分类问题”图片(详见教材),并介绍相关知识例如有两类不同的样本数据Dl和D2,Dl用小正方形表示,D2用实圆表示,小三角形表示新输入的未知类别样本。现在要对新样本进行分类,判断它属于Dl还是D2k近邻分类的过程:先主观设置k的值,假设k的值为5,然后通过距离计算找出与新样本距离最近的5个样本点,从图4-1中可以看出,这5个近邻点中有4个属于D2类,1个属于Dl类,从而可判定新样本属于D2类。2.k近邻算法解决回归问题的
5、原理回归问题研究的是一组变量与另一组变量之间的关系,其预测结果是连续的数值。使用k近邻算法解决回归问题时,仍然需要计算待测样本与所在特征空间中每个样本的距离,基于计算结果,找到与待测样本最邻近的k个样本,通过对这k个样本的某个值(如平均值)进行统计,依据各个待测样本的统计值画出回归曲线,进而预测新样本的值。【教师】通过多媒体展示“k近邻算法解决回归问题”图片(详见教材),并介绍相关知识在研究二手房房价与面积之间关系的实例中,使用k近邻算法建立模型。使用k近邻算法建立回归模型的过程:先主观设置k的值,假设k的值为5,通过计算找到所在特征空间中与待测样本距离最近的5个样本,然后计算这5个样本的某个
6、统计值(如平均值),将这个值作为待测样本的预测值,依据各个样本的预测值得到回归曲线。4.1.2k近邻算法的常见问题及解决方法k近邻算法通常用于光学字符识SU(opticalcharacterrecognition,OCR)系统、电商平台用户分类、银行数据预测客户行为等领域。在实际应用中,k近邻算法可能会遇到以下几个需要解决的问题。1 .样本不平衡对算法的影响k近邻算法解决分类问题时,经常会遇到这样的问题:当样本分布不平衡时(即数据集中一个类的样本容量很大,而其他类的样本容量很小),很可能会出现对新样本的预测不准确的情况。因为样本分布不均匀,当输入一个新样本时,该样本的k个邻居中大数量类的样本占
7、多数,很可能将新样本预测为大数量的样本类型,导致预测误差。新样本应属于Dl类,但是应用k近邻算法会将其错误地划分为D2类。【教师】通过多媒体展示“样本不平衡时k近邻算法的预测效果”图片(详见教材),并介绍相关知识对于这类问题,可以采用对近邻点赋权值的方法改进,即与该样本距离小的邻居权值大,与该样本距离大的邻居权值小.由此,将距离远近的因素也考虑在内,避免了因某个类别样本的容量过大而导致误判的情况。2 .k的取值对算法的影响【教师】通过多媒体展示“k值与预测误差率的关系”图片(详见教材),并介绍相关知识在k近邻算法中,k值是主观设定的,但人为设定k值是不科学的,会影响模型的性能。一般情况下,k值
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 机器学习基础及应用 机器 学习 基础 应用 教案 使用 近邻 算法 实现 分类 回归