欢迎来到优知文库! | 帮助中心 分享价值,成长自我!
优知文库
全部分类
  • 幼儿/小学教育>
  • 中学教育>
  • 高等教育>
  • 研究生考试>
  • 外语学习>
  • 资格/认证考试>
  • 论文>
  • IT计算机>
  • 法律/法学>
  • 建筑/环境>
  • 通信/电子>
  • 医学/心理学>
  • ImageVerifierCode 换一换
    首页 优知文库 > 资源分类 > DOCX文档下载
    分享到微信 分享到微博 分享到QQ空间

    [整理]二分类与多分类Logistic回归模型..docx

    • 资源ID:1352392       资源大小:105.47KB        全文页数:14页
    • 资源格式: DOCX        下载积分:5金币
    快捷下载 游客一键下载
    账号登录下载
    微信登录下载
    三方登录下载: QQ登录
    二维码
    扫码关注公众号登录
    下载资源需要5金币
    邮箱/手机:
    温馨提示:
    快捷下载时,如果您不填写信息,系统将为您自动创建临时账号,适用于临时下载。
    如果您填写信息,用户名和密码都是您填写的【邮箱或者手机号】(系统自动生成),方便查询和重复下载。
    如填写123,账号就是123,密码也是123。
    支付方式: 支付宝    微信支付   
    验证码:   换一换

    加入VIP,免费下载
     
    账号:
    密码:
    验证码:   换一换
      忘记密码?
        
    友情提示
    2、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,就可以正常下载了。
    3、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者360浏览器、谷歌浏览器下载即可。
    4、本站资源下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰。
    5、试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓。

    [整理]二分类与多分类Logistic回归模型..docx

    二分类1.ogistic回归模型在对资料进行统计分析时常遇到反应变M为分类变旧的资料,那么,能否用类似于雄性回归的模型来时这种资料进行分析呢?答案是肯定的,本章将向大家介绍对二分类因变型进行回打建模的1.ogistic回打模型.第一节模型简介一、模型入门在很多场合下称能碰到反应变量为二分类的资料,如考察公司中总裁级的领导层中是否有女性职员、某一天是否下雨、某衲也者结局是否径.愈、调性对象是否为某商品的潜在消费者等.对于分类资料的分析,相信大家并不陌生,当要考察的影响因索较少,且也为分类变录时,分析者常用列联表(ConIingenCyTable)的形式对这种资料诳行整理,并使用z检骗来进行分析,汉存在分类的混杂内索时.还可应用Mantd-HaCn"d检验进行统计学检验.这种方法可以很好地控制混杂因素的影响.但是这种经典分析方法也存在局限性,首先它虽然可以控制若干个囚素的作用,但无法描述其作用大小及方向,更不能考察各因素间是否存在交互任用;其次,该方法对样本含业的要求较大,音控制的分层因素较多时,单元格被划分的越来越细,列联表的格子中领数Ul能很小甚至为0.将杼致检脸结果的不可先,最后,/2检骁无法时连续性自变成的影响进行分析,而这将大大限制其应用范用,无疑是其致使的缺陷。那么,能否建立类似于线性回归的模型,对这种数据加以分析?以用简单的二分类因变量为例来加以探讨,为了讨论方便,常定义出现阳性结果时反应变量取值为1.反之期取值为0.例如当领导层有女性职员、卜.闲、裕愈时反应变呆.V=I,而没有女性职员、未下雨、未痊愈时反应变量.y=0记出现阳性结果的频率为反应变fitP(y=Do首先,I可颐一下标准的税性何归模型:y=+zu+zuw如果对分类变fit直接拟合.则实质上拟合的是发生概率,参照前面线性回归方程,很自然地会想到是否可以建立下面形式的网归模型:P=+力内+A1显然,该模型可以描述当各自变量变化时.因变盘的发生概率会怎样变化,可以满足分析的基本要求.实际上,统计学家In最口也在朝这一方向努力,并考虑到最小二乘法拟合时遇到的各种问册,对计算方法进行了改迸,最终提出了加权以小:乘法来对该模型进行拟合,至今这种分析思路还偶有应用。既然可以使用加权最小二乘法对模型加以估计,为什么现在又放弃了这种做法呢?原因在于有以下两个问时是这种分析思路所无法解决的:(1)取伯区间;上述模型右侧的取伯莅困,或者说应用上述模型进行预报的范国为整个实数集(-8,+8),而模型的左边的取值范围为0>l,二者并不相符.模型本身不能保证在自变量的各种组合下因变量的估计值仍限制在0-1内,因此可能分析者会得到这种荒唐的结论:男性、:如岁、病情较轻的患者被治愈的概率是208!研究者当然可以将此结果等价于10的可以治愈,但是从数理统计的角度讲,这种模型显然是极不严迸的,(2)曲线美联:根据人城的观察,反应变量P与自变量的关系通常不是出城关系,而S型曲线关系.这里以收入水平和购车概率的关系来加以说明当收入非常低时,收入的增加而购买概率影响很小:但是在收入达到某一阀他时,购买概率会随着收入的增加而迅速增加;在购买概率达到一定水平,绝大部分在该收入水平的人都会购车时,收入增加的影响又会逐渐减弱,如果用图形来表示,则如图I所示。显然,城性关联是线性回归中至关取要的一个前提假设.而在上述模型中这一假设是明显无法满足的.图1S型曲戏图以上问题促使统计学家们不得不寻求新的解决思路,如同在曲线回归中,往往采用变用变换,使御曲线直线化.然后再进行直线回归方程的拟合.僚么,能否考虑对所预测的因变IN加以变换,以使得以上矛盾如以解决?基于这一思想.又有一大批统计学家在寻找合适的变换函数,终于,在1970年,COX引入了以前用于人口学领域的1.ogi<变换(1.ogitT1111sfo11nali>n).成功地解决了上述问卷,那么,什么是1.ogit变换呢?通常的把H;现某种结果的概率与不出现的概率之比称为比½(<kls,国内也译为优势、比数),即a%=一,取其对数人=IMQd小)=In/一.-11-11这就是k>git变换.下面来看一下该变换是如何解决上述两个问题的,首先是因变域取值区间的变化,概率是以0.5为对称点,分布在01的范围内的,而相应的Iogit(P)的大小为:乃=0logit(-)=ln(0/1)=n=0.5logit(111)=ln(0.5/0.5)=0-=1logit()=ln(l0)=+oo显然,通过变换,1.OgiI(7)的取值范树就被扩展为以0为对称点的整个实效域,这使得在任何自变址取优下,对灯值的预测均有实际意义.其次大量实践证明,1.Ogit(万)往往和自变所呈级性关系,换吉之,概率和自变求间关系的S形曲线往往就符合logic函数关系,从而可以通过该变换将此战直规化,因此,只的要以1.Ogil(乃)为因变IE建立包含P个自变量的IogiSliC回归模型如下:IOgil(P)=4+48+.+4/以上即为Iogisiic回归模型。由上式可推汨:p=ex世风+6X+Bp)JP=I1+cxp(A+z+凡XP)1+exP(A+X+3%)上面三个方程式相互等价。通过大量的分析实践,发现IOgiSiiC回归模型可以很好地满足对分类数据的建模需求,因此目前它己经成为了分类因变量的标准建模方法。通过上面的讨论,可以很容易地理解二分类IOgEiC回归模型对资料的要求是:(I)反应变豉为二分类的分类变限或是某事件的发生率.(2)自变瞅与1.OgiH不)之间为战性关系,(3)残差合计为0,且眼从二项分布,(4)各观测值间相互独立.由于因度量为二分类,所以I。妙SUC回归模型的误差应当版从二项分布,而不是正杳分布因此,该模型实际上不应当使用以前的最小课法进行多数估计,上次均使用量大似然法来解决方程的估计和检险问题二、一些基本概念由于使用了Iogil变换,1.OgiSIiC模型中的参数含义略显复杂,但有很好的实用价值,、为此现对一些基本概念加以解修。1.优势比如前所述,人们常把出现某种结果的概率与不出现的概率之比称为比值ItPPOddS=C两个比值之比称为优势比(iMsRatio,简称0/?首先考察Cw的特性:I-P若Pl>02,则OddSI=>B=odds、1l-AjI-P2若Pl<P2,则odd='一</一=oddsiIll2若/1=P2,则odds.='='=odds、I-Rl-*显然,OK是否大于I可以用作两种情形下发生概率大小的比较.2.1.ogistic回归系数的鹿义从数学上济,夕和多元回归中系敷的解狎并无不同,代表改变一个单位时I。Rit(P)的平均改变量,但由于OddS的自然对数即为IORit交换,因此1.ogistic回归模型中的系数和OR有着直接的交换关系,使得IRgkUC回归系数有更加贴近实际的解狎,从而也使得该模IWW了广泛的JUB.卜面用一个实例加以说明:以4格表资料为例具体说明各回归系数的意义:表14恪表资料治疗方法_(real)治疗结果(outcome)合计治愈率治愈=1)未治愈<=0)新疗法(=1)60(八)21(c)8174.07%传统疗法(=0)42(b)27(d)6960.87%合计1024813068.00%该资料如果拟合1.ofiMicmiUl模型,则结果如下(操作步骤详见后述):1.ogit(PIoutcome=I)=&+?IXtreat=-0.442+0.608x/re«r(1)常数项:表示自变量取全为。称基戏状态)时,比数(Y=I与Y=O的概率之比)的自然对数值,本例中为片=-0.442=ln(42/69)/(27/69)=ln(42/27)=n(b/d).W传统疗法组的治愈率与未治愈率之比的自然对数侬,在不同的研究设计中,常数项的具体含义可能不同,如战线状态卜个体患病率、基线个体发病率、地线状态中病例所占比例等,但这些数值的大小研究者般并不关心.(2)各自变最的回归系数:i(i=,P)表示自变珏七旬改变一个单位,优势比的自然对数值改变量,而exp(/?J即SfGi,表示自变IiU,每变化一个单位.阳性结果出现概率与不出现概率的比值是变化前的相应比伯的倍数,即优势比(注意:不是出现阳性结果的概率为变化前的倍数,即优势比并不等同于相对危险度)。本例中自变圻治疗方法的e1归系数4=0.608,为两组病人的治愈率与未治愈率之比的对数值之差,pin(608l)(2181)=ln(4269)(2769)=ln(rffrc)o因此,对于四格表资料而言,所建立的1.OgiMiC回归模型也可以与成:logit(PIoutcome=I)=Ins/J)+ln(wJ)×treat=n(bd)+In(OZf)×treat由以上关系可知,exp(aj表示传统疗法组的治愈率与未治愈之比fft.exp(¾)则表示治疗方法增加一个单位,即将疗法从传统疗法改为新疗法时.新疗法组病人治愈率与未治愈率之比值相对于传统疗法机病人的治愈率与未治愈率比值的倍数.而两组病人的治愈率之比=(60/81)/(42/69)=1.217,并不完全相同.但是,当研究结果出现阳性的概率较小时(一般认为小于0.反之当概率大于0.9时亦可),OR值大小和发生概率之比非常接近,此时可以近似地说一组研究对望的阳性结果发生率是男一组研究对望发生率的OR值信,即用OR侑的大小来挖地表示相对危险度的大小.三、简明分析实例SPSS中通过regression模块中的Binary1.ogistic过程实现结果变量为二分类的1.ogisticI可归,下面通过一个实例分析,具体讲解相应的操作和结果好择.例1某医师希里研究病人的年龄岁入性别(0为女性,1为男性)、心电图检骁是否异常(ST段压低,0为正常、I为轻度异常、2为重度异常)与患冠心拂是否有关。调用SPSS中的Binar>1.ogistic过程:i1.ogisticRegression冈图21.ogiSliC回归主对话框本例中涉及的对话框界面如图9.2所示.注意对话框中都有一个以前未出现过的a*b按钮、用于纳入交互作用,只要先将相应变量选中,然后单击此按钮,相应的交互项就会被纳入模型。本例因较为简单,未用到此功能,性别虽为分类变革,但仅有两个取值水平,所以可以百.接引入模型,结果仍然可以被正常解徉.结果如下:首先Jft出分析中使用的记录数汇总,此处略.衣2DependentVariableEncodingOriginalValueInternalValue卡思橘忠病01表2为因变;*的取值水平编码,SPSS拟借模型时蚊认取值水平福的为阳性结果,时广本例来讲,拟合的模型是Iogit(Pty=患物).随后进行模型拟合,首先给出的是模型不含任何自变量,而只干j常数项(即无效模型时的输出结果,标题为:-BIockO:BeginningBIock".此时的模型为:IOg()=4=003,exp(A>)_CXP(OJ03)_05257l+exp()I+exp(O.lO3)表3ClassificationTable*bObSerVedPredicted是否患冠心病Percentage未患病患病CorrectStep0未患病是否患冠心病037,0

    注意事项

    本文([整理]二分类与多分类Logistic回归模型..docx)为本站会员(王**)主动上传,优知文库仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知优知文库(点击联系客服),我们立即给予删除!

    温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载不扣分。




    关于我们 - 网站声明 - 网站地图 - 资源地图 - 友情链接 - 网站客服 - 联系我们

    copyright@ 2008-2023 yzwku网站版权所有

    经营许可证编号:宁ICP备2022001189号-2

    本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。优知文库仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知优知文库网,我们立即给予删除!

    收起
    展开