大数据预处理复习题(附参考答案).docx
《大数据预处理复习题(附参考答案).docx》由会员分享,可在线阅读,更多相关《大数据预处理复习题(附参考答案).docx(21页珍藏版)》请在优知文库上搜索。
1、大数据预处理复习题(一)单选题1 .下列关于缺失值的形式的说法中,正确的是()0A. PythOn中默认的缺失值形式为NAB. PandaS中默认的缺失值形式为NaNC. PythOn中默认的缺失值形式为NUIlD. PandaS中默认的缺失值形式为空字符串()2 .下列表述中,正确的是()0A.对字符串型变量的缺失值,需要使用众数进行填补。B.对于缺失值,最简单的处理方法是使用均值进行填补。C.完全变量指的包含缺失值的变量。D.在调查过程中,因被调查者拒绝回答敏感问题而造成的数据缺失,属于人为原因。3.关于日期时间型数据,下列说法正确的是()oA.在计算机系统中,日期时间型数据是以文本形式存
2、储的。B.在计算机系统中,日期时间型数据是以数值形式存储的。C.在计算机系统中,日期时间型数据是以因子形式存储的。D.在计算机系统中,日期时间型数据是以缺失值形式存储的。)o4.下图是某分类变量各类别计数分布的箱线图,从图中可知(A.少部分分类计数很低。B.该变量类别很少,可以清晰的用箱线图展示各类别的频数。C.这个变量存在大量低频分类。D.绝大多数分类计数很高。5 .下列关于数据预处理的表述中,不正确的是()oA.具备专业经验的数据科学家可以在数据分析前忽略数据预处理。B.数据预处理是在数据采集后,分析前这段时间里对数据进行的处理操作。C.数据预处理的效果与数据分析顺利与否直接相关。D.数据
3、预处理往往占据数据分析项目总工作量的60%以上。6 .下列数据特征缩放的公式中,正确的是()0A.数据中心化公式为:Xscaled=o8 .数据标准化公式为:XSCaled=X一又。C. MaxNBS缩放公式为:Xscaled=ImaxD. RobUSt缩放公式为:Xscaled,=7.下列关于相关系数的表述中,正确的是()0A. Pearson相关系数的值在0,1之间分布。B. SPearnIan相关系数的值在T,1之间分布。C.变量X和丫的SPearman相关系数的定义为:r=7=三M=(xi-x)2+(yi-y)2D.相关系数越大,则说明两个变量的相关性越强。8 .下列关于异常值的表述中
4、,不正确的是()oA.异常值也可以称为离群值。9 .异常值的数值可能是真实可靠的。C.异常值在数据中占得比例很小。D.异常值完全是由于错误形成的数据。10 下列关于哑变量的名称中,不正确的是()0A.二分类变量B.虚拟变量C.0-1型变量D.数值型变量10.下列关于异常值识别方法的表述中,不正确的是()oA.异常值的识别方式是考察变量中每一个样本值与其他样本值的相对距离。B.通过箱线图可以识别异常值。C.可以利用变量的样本均值和样本标准差来识别异常值。I).异常值识别标准中使用了标准差的倍数作为距离大小的度量标准。11.下列表述中,正确的是()0A.含有缺失值的变量必须被剔除。B.数据缺失的原
5、因是该数据不存在。C.数据缺失对于数据建模分析不存在影响。D.随机缺失类型是指数据的缺失仅仅依赖于其它变量。12 .下列关于数据错误的表述中,不正确的是()oA.数据集中所有错误的数据都可以被发现并予以纠正。B.数据自身的逻辑规律可以帮助我们发现一些数据错误。C.类别名称不统一会造成数据错误。D.文字表述不规范会造成数据错误。13 .在大多数箱线图绘图工具中,定义上限值位置和下限值位置分别为)Q3 - 1.5 IQRQ3 + 1.5 IQRQl + 1.5 IQRQl - 1.5 IQRA. Ql1.5IQRB. Ql-1.5IQRC. Q3-1.5IQRD. Q3+1.5IQR14.下列关于
6、数据缺失的表述中,正确的是()oA.缺失值处理的主要手段就是使用最接近的值进行填补。B.只要数据录入人员避免漏录,数据就不会缺失。C.在预处理阶段,遇到数据缺失情况可以忽略,不做处理。D.某个变量的值为0,说明产生了数据缺失。15 .下列关于数据预处理环节简化数据的表述中,不正确的是()oA.过多的数据会导致模型训练效率低下。B.初学者进行数据分析时需要简化数据,专业数据分析师不需要简化数据。C.简化数据时,需要保证数据集的信息不过多损失。D.在样本量增加到一定程度后,信息含量趋近于不变。16 .下列关于数据中心化的表述中,不正确的是()0A.中心化后,平均值变为0。B.中心化后,标准差发生改
7、变。C.中心化后,极差没有发生改变。D.中心化后,分布形状没有发生改变。17 .下列关于数据归约的意义中,不正确的是()0A.可以降低无效、错误数据对数据建模的影响,提高建模准确性。B.大幅缩减模型的训练时间,在需要反复训练模型的场景下能够极大地提高建模效率。C.可以降低数据存储的空间成本。D.有利于不同量纲数据之间的比较,也避免了自变量的不同量纲对建模的影响。18 .下列关于异常值处理的表述中,不正确的是()oA.异常值可能是准确的数据B.对于数据错误的异常值,可以删除C.删除异常值将改变数据集的样本量D.截断方法改变了样本容量19.下列表述中,正确的是()。A,将连续型变量离散化为定性变量
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 数据 预处理 复习题 参考答案