[整理]二分类与多分类Logistic回归模型..docx
《[整理]二分类与多分类Logistic回归模型..docx》由会员分享,可在线阅读,更多相关《[整理]二分类与多分类Logistic回归模型..docx(14页珍藏版)》请在优知文库上搜索。
1、二分类1.ogistic回归模型在对资料进行统计分析时常遇到反应变M为分类变旧的资料,那么,能否用类似于雄性回归的模型来时这种资料进行分析呢?答案是肯定的,本章将向大家介绍对二分类因变型进行回打建模的1.ogistic回打模型.第一节模型简介一、模型入门在很多场合下称能碰到反应变量为二分类的资料,如考察公司中总裁级的领导层中是否有女性职员、某一天是否下雨、某衲也者结局是否径.愈、调性对象是否为某商品的潜在消费者等.对于分类资料的分析,相信大家并不陌生,当要考察的影响因索较少,且也为分类变录时,分析者常用列联表(ConIingenCyTable)的形式对这种资料诳行整理,并使用z检骗来进行分析,
2、汉存在分类的混杂内索时.还可应用Mantd-HaCnd检验进行统计学检验.这种方法可以很好地控制混杂因素的影响.但是这种经典分析方法也存在局限性,首先它虽然可以控制若干个囚素的作用,但无法描述其作用大小及方向,更不能考察各因素间是否存在交互任用;其次,该方法对样本含业的要求较大,音控制的分层因素较多时,单元格被划分的越来越细,列联表的格子中领数Ul能很小甚至为0.将杼致检脸结果的不可先,最后,/2检骁无法时连续性自变成的影响进行分析,而这将大大限制其应用范用,无疑是其致使的缺陷。那么,能否建立类似于线性回归的模型,对这种数据加以分析?以用简单的二分类因变量为例来加以探讨,为了讨论方便,常定义出
3、现阳性结果时反应变量取值为1.反之期取值为0.例如当领导层有女性职员、卜.闲、裕愈时反应变呆.V=I,而没有女性职员、未下雨、未痊愈时反应变量.y=0记出现阳性结果的频率为反应变fitP(y=Do首先,I可颐一下标准的税性何归模型:y=+zu+zuw如果对分类变fit直接拟合.则实质上拟合的是发生概率,参照前面线性回归方程,很自然地会想到是否可以建立下面形式的网归模型:P=+力内+A1显然,该模型可以描述当各自变量变化时.因变盘的发生概率会怎样变化,可以满足分析的基本要求.实际上,统计学家In最口也在朝这一方向努力,并考虑到最小二乘法拟合时遇到的各种问册,对计算方法进行了改迸,最终提出了加权以
4、小:乘法来对该模型进行拟合,至今这种分析思路还偶有应用。既然可以使用加权最小二乘法对模型加以估计,为什么现在又放弃了这种做法呢?原因在于有以下两个问时是这种分析思路所无法解决的:(1)取伯区间;上述模型右侧的取伯莅困,或者说应用上述模型进行预报的范国为整个实数集(-8,+8),而模型的左边的取值范围为0l,二者并不相符.模型本身不能保证在自变量的各种组合下因变量的估计值仍限制在0-1内,因此可能分析者会得到这种荒唐的结论:男性、:如岁、病情较轻的患者被治愈的概率是208!研究者当然可以将此结果等价于10的可以治愈,但是从数理统计的角度讲,这种模型显然是极不严迸的,(2)曲线美联:根据人城的观察
5、,反应变量P与自变量的关系通常不是出城关系,而S型曲线关系.这里以收入水平和购车概率的关系来加以说明当收入非常低时,收入的增加而购买概率影响很小:但是在收入达到某一阀他时,购买概率会随着收入的增加而迅速增加;在购买概率达到一定水平,绝大部分在该收入水平的人都会购车时,收入增加的影响又会逐渐减弱,如果用图形来表示,则如图I所示。显然,城性关联是线性回归中至关取要的一个前提假设.而在上述模型中这一假设是明显无法满足的.图1S型曲戏图以上问题促使统计学家们不得不寻求新的解决思路,如同在曲线回归中,往往采用变用变换,使御曲线直线化.然后再进行直线回归方程的拟合.僚么,能否考虑对所预测的因变IN加以变换
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 整理 分类 Logistic 回归 模型