基于weka的数据分类和聚类分析实验报告.docx
《基于weka的数据分类和聚类分析实验报告.docx》由会员分享,可在线阅读,更多相关《基于weka的数据分类和聚类分析实验报告.docx(4页珍藏版)》请在优知文库上搜索。
1、基于weka的数据分类分析实验报告1实验根本内容本实验的根本内容是通过使用Weka中的三种常见分类和聚类方法(决策树J48、KNN和k-means)分别在训练数据上训练出分类模型,并使用校验数据对各个模型进行测试和评价,找出各个模型最优的参数值,并对三个模型进行全面评价比拟,得到一个最好的分类模型以及该模型所有设置的最优参数。最后使用这些参数以及训练集和校验集数据一起构造出一个最优分类器,并利用该分类器对测试数据进行预测。2数据的准备及预处理2.1 格式转换方法翻开“dataO2.xls另存为CSV类型,得至JdataO2.csv。昌dataO2.csv在WEKA中提供了一个ArffVieWe
2、i模块,翻开一个dataO2.csv进行浏览,然后另存为ARFF文件,得到“dataO2.arf,dataO2.arff。3.实验过程及结果截图3.1 决策树分类(D决策树分类用“Explorer翻开数据*data02.arffw然后切换到“Classify。点击“Choose,选择算法lrees-J48,再在Testoptions*选择Cross-validation(Flods=IO),点击“Start,开始运行。系统默认trees-J48决策树算法中minNu00bj=2,得到如下结果=SUmmary=CoirectlyClassifiedInstancesIncorrectlyClas
3、sifiedInstancesKappastatisticMeanabsoluteerrorRootmeansquarederrorRelativeabsoluteerrorRootrelativesquarederror2388.4615%3H.5385%0.76360J410.325530.7368%68.0307%TotalNumberofInstances26=DetailedAccuracyByClass=TPRateFPRatePrecisionRecallF-MeasureROCAreaClass0.824010.8240.9030.892N10.1760.7510.8570.8
4、92YWeightedAvg.0.8850.0610.9130.8850.8870.892=ConfusionMatrix=abclassifiedas143a=N09b=Y使用不同的参数准确率比拟:minNumObj2345CorrectlyClassifiedInstances23(88.4615%)22(84.6154%)23(88.4615%)23(88.4615%)由上表,可知RiinNumObj为2时,准确率最高。根据测试数集,利用准确率最高的模型得到的结果:分析说明:在用J48对数据集进行分类时采用了10折交叉验证(Folds=IO)来选择和评估模型,其中属性值有两个Y,N。一局
5、部结果如下:CorrectlyClassifiedInstances2388.4615%IncorrectlyClassifiedInstances311.5385%=ConfusionMatrix=abclassiedas143a=N09b=Y这个矩阵是说,原来是Y的实例,有14个被正确的预测为Y,有3个错误的预测成了“N。原本是NO的实例有0个被正确的预测成为Y,有9个正确的预测成了N。14+3+0+9=26是实例的总数,而(14+9)/26=0.884615正好是正确分类的实例所占比例。这个矩阵对角线上的数字越大,说明预测得越好。(2) K最近邻分类算法用Explorer翻开数据data
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 基于 weka 数据 分类 聚类分析 实验 报告