第1章定性数据.ppt

资源ID：589909 资源大小：842.50KB 全文页数：18页
资源格式： PPT 下载积分：5金币

快捷下载

账号登录下载

微信登录下载

三方登录下载：

扫码关注公众号登录

下载资源需要5金币

邮箱/手机：
温馨提示：	快捷下载时，如果您不填写信息，系统将为您自动创建临时账号，适用于临时下载。如果您填写信息，用户名和密码都是您填写的【邮箱或者手机号】（系统自动生成），方便查询和重复下载。如填写123，账号就是123，密码也是123。
支付方式：
验证码：	换一换

加入VIP,免费下载

账号：
密码：
验证码：	换一换
当日自动登录忘记密码？

友情提示

1、下载资料失败解决办法

2、PDF文件下载后，可能会被浏览器默认打开，此种情况可以点击浏览器菜单，保存网页到桌面，就可以正常下载了。

3、本站不支持迅雷下载，请使用电脑自带的IE浏览器，或者360浏览器、谷歌浏览器下载即可。

4、本站资源下载后的文档和图纸-无水印,预览文档经过压缩，下载后原文更清晰。

5、试题试卷类文档，如果标题没有明确说明有答案则都视为没有答案，请知晓。

网站客服

侵权投诉

第1章定性数据.ppt

定性数据统计分析Categorical Data Analysis教学内容第一章定性数据第二章分类数据的检验第三章四格表第四章二维列联表第五章高维列联表第六章逻辑斯蒂回归模型第七章对数线性模型第八章列联表的对应分析第一章定性数据什么是定性数据？数据的类型根据数据的取值来分：1.计量数据(Continuous Data):身高、体重等；取值为任意实数2.计数数据(Counts):职工人数、成交股票数等；取值为非负整数3.名义数据(Nominal Data):性别、婚姻状况等；取值为属性编码4.有序数据(Ordinal Data):文化程度、满意度等；取值为可排序的属性编码第一章定性数据定性数据的描述性统计方法有表格法、图示法、数值法1、表格法【例】向50个被访者调查“你最喜欢喝的饮料”，得到表1.1。以上数据经按类别整理后，可得到频数分布表，见表1.2。制作有序数据的频数分布表时，还可以统计累积频数和累积频率，见表1.3。第一章定性数据如果我们想考察这些饮料受欢迎程度与性别的关系，可以制作饮料与性别的交叉分组表，见表1.4。显然，这种表有利于我们进一步发现受欢迎程度与性别之间的关系。类似地有三种、或更多种方式分组的交叉表，即列联表（contingency table）。第一章定性数据2、图示法包括条形图、圆形图（表1.4）、排列图等其中的排列图，又叫帕累托图，是按照发生频率大小顺序绘制的条形图；表示有多少结果是由已确认类型或范畴的原因所造成；将出现的质量问题和质量改进项目按照重要程度依次排列而采用的一种图表；可以用来分析质量问题，确定产生质量问题的主要因素。帕累托图(Pareto Chart)通常用双坐标系表示，左边纵坐标表示频数，右边纵坐标表示频率，分析线表示累积频率累积频率；横坐标表示影响质量的各项因素，按影响程度的大小(即出现频数多少)从左到右排列；通常将累积频率080%之间的因素认为是影响质量的主要因素。（见附录1）第一章定性数据3、数值法即用代表性的数值描述定性数据的统计分布特征。代表性的数值有两类：描述定性数据的中心位置描述定性数据的离散程度中心位置：众数、中位数、百分位数离散程度：异众比率、G-S指数、熵众数数据中出现频数最高的数据值，记为Mo如上例中，“可口可乐”是众数；适用于定性名义数据中心位置的量度；众数的性质略。中位数将数据按一定顺序排列后位于中间的数值，记为Me；例：游客对服务态度的评价（%)适用于定性有序数据中心位置的量度。百分位数百分位数是对数据位置的量度，但不一定是中心位置；一般地，第p百分位数是指，至少有p%的数据项小于等于这个值，且至少有(100-p)%的数据项大于等于这个值；第25百分位数称为下四分位数，记为QL，第50百分位数就是中位数，第75百分位数称为上四分位数，记为QU；异众比率用于定性名义数据离散程度的度量，记为V：离异比率越小，说明数据越集中；此外，还可以利用随机变量来刻画定性数据的离散程度；比如，随机变量，可以取等不同的值，相应的概率为即：momofnnnV1kaaa、21kppp、21kiaPpii,2,1)(，Gini-Simpson指数基尼-辛卜生指数简称G-S指数随机变量的G-S指数记为G-S()G-S指数越小，说明随机变量的分布越集中；G-S指数越大，则分布越分散。当k=2，时，G-S指数达到最大值，即均匀分布时指数达到最大（见附录2）。21()1kiiGSp 120.5pp(1 1/)k熵随机变量的熵(entropy)记为H()：在的条件下，衡量给定分布与均匀分布接近的程度。越接近于均匀分布，越处于平衡状态，即离散程度越大，熵的取值越大，最大值为；反之也反。(见附录2)1()lnkiiiHpp 11kiiplnk定性数据离散程度的测度【例】最喜欢的饮料的频数分布表1、用离异比率测度：若将数据稍作调整为：则饮料频数频率可口可乐苹果汁橘子汁百事可乐杏仁露2565595012101018合计50100(50 17)/5066%V(5025)/5050%V 定性数据离散程度的测度2、用G-S指数测度：调整前，调整后，3、用熵测度：调整前，调整后，52222221G-S11(0.340.160.140.140.22)0.77iip 52222221G-S11(0.50.120.10.10.18)0.68iip 51ln(0.34 ln0.340.16 ln0.16)1.54iiiHpp 51ln(0.5 ln0.50.12 ln0.12)1.37iiiHpp 定性数据离散程度的测度如果前例中每种饮料的频数相同，那么各自的G-S指数和熵分别为多少呢？当均匀分布时，定性数据的离散程度达到最大G-S指数的最大值为：熵的最大值为：11klnk本章小结定性数据的类型运用频数分布表整理数据，并计算频率绘出条形图、饼图、帕累托图描述定性数据的中心位置和离散程度

注意事项

本文（第1章定性数据.ppt）为本站会员（王**）主动上传，优知文库仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对上载内容本身不做任何修改或编辑。若此文所含内容侵犯了您的版权或隐私，请立即通知优知文库（点击联系客服），我们立即给予删除！

温馨提示：如果因为网速或其他原因下载失败请重新下载，重复下载不扣分。