数据挖掘实验指导书.docx
《数据挖掘实验指导书.docx》由会员分享,可在线阅读,更多相关《数据挖掘实验指导书.docx(16页珍藏版)》请在优知文库上搜索。
1、I.t.t*Lt-t数据挖掘实验指导书实验一:数据分析与可视化1实验二:数据挖掘分析8实验一:数据分析与可视化一、实验目的和要求1 .熟悉掌握PythOn编程基础2 .熟悉掌握利用Python进行数据分析3 .熟悉掌握利用Python进行可视化的方法二、实验内容和原理1 .使用Python进行数据导入2 .使用python进行数据的探索性分析3 .使用Python进行数据可视化分析三、主要仪器设备计算机1台,本机型号HPPavilionNotebook15-bc5;Python版本:3.7;matplotlib版本:3.5.1。四、实验步骤1 .绘制散点图散点图是指在回归分析中,数据点在直角坐
2、标系平面上的分布图,散点图表示因变量随自变量而变化的大致趋势,据此可以选择合适的函数对数据点进行拟合。步骤如下:(1)导入相关模块importmatplotlib.pyplotaspitimportnumpyasnp(2)使用随机数模块生成100组数据点# 随机产生100个02之间的X,y坐标X=np.random,rand(n)*2y-np.random,rand(n)*2(3)设置散点图的属性:颜色、面积、透明度colors-nprandom,rand(n)# 随机产生100个01之间的颜色值area=np.pi*(10*np.random,rand(n)*2# 点的半径范围:010(4)
3、绘制并显示散点图pit.scatter(x,y,s-area,c=colors,alpha-0.5,marker=o)pit.show()2 .绘制直方图直方图是一种可视化表示数据在连续间隔或者特定时间段内容的分布情况;直方图又称为质量分布图,属于条行图的一种;直方图X轴表示数据类型,纵轴表示分布情况,每个数据宽度可以任意变化。步骤如下: 导入IlIatPIotlib.pyplot模块 准备数据,可以使用numpyPandaS整理数据 调用PyPIOt.hist()绘制直方图(1)导入相关模块(2)使用随机数模块生成待可视化的学生身高数据1000条;(3)调用PyPlOt.hist()绘制直方
4、图,bars=100;(4)直方图名称为你的姓名,X轴标签为身高,y轴标签为数量;(5)显示直方图;(6)改变直方图的透明度,再绘制一幅直方图。3 .绘制箱线图箱线图反映数据分布特征的统计量,能提供有关数据位置和分散情况的关节信息,尤其在比较不同特征时,更可表现其分散程度差异。步骤如下:(1)导入相关模块:numpymatplotlib.pyplotpandas(2)使用随机数模块生成100行5列的DataFrame;(3)各列属性名为A,B,C,D,E)(4)绘制并显示箱线图。(5)箱线图名称为你的姓名4 .绘制词云“词云”是对网络文本中出现频率较高的“关键词”予以视觉上的突出,形成“关键词
5、云层”或“关键词渲染”,从而过滤掉大量的文本信息,使浏览网页者只要一眼扫过文本就可以领略文本的主旨。“词云”就是数据可视化的一种形式。给出一段文本的关键词,根据关键词的出现频率而生成的一幅图像,人们只要扫一眼就能够明白文章主旨。步骤如下:(1)导入相关模块frompyechartsimportoptionsasoptsfrompyecharts.chartsimportPage,WordCloudfrompyecharts.globalsimportSymbolType(2)自主构造需要可视化的词云,不少于20个词。(3)使用WordCIoudO方法,设置相关参数。c=WordCloudOc.
6、add(”,words,word_size_range=20,80)c.set_global_opts(title_opts=opts.TitleOpts(title=WordCloud-基本示例)c.render_notebook()五、实验数据记录和处理代码记录行号代码1importmatplotlib.pyplotaspit2importnumpyasnp3n=1004x=np.random,rand(n)*25y=np.random,rand(n)*26colors-np.random,rand(n)7area=np.pi*(10*np.random,rand(n)*28area=np
7、.pi*(10*np.random,rand(n)*29pit.scatter(x,y,s=area,c=colors,alpha=0.5,marker=。)10pit.show()1importmatplotlib.pyplotaspit2importnumpyasnp3yHeight=np.random,randint(150,200,500)4pit.hist(y_Height,bins=50)5pit.title(“徐茂桐)6pit.Xiabel(Height)7pit.ylabel(Counts)8pit.reParams,font,sans-serif,二SimHei,9pit.r
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 数据 挖掘 实验 指导书