第7章自变量选择与逐步回归.ppt
《第7章自变量选择与逐步回归.ppt》由会员分享,可在线阅读,更多相关《第7章自变量选择与逐步回归.ppt(64页珍藏版)》请在优知文库上搜索。
1、第七章第七章自变量选择与逐步回归 多元线性回归方程中所包含的自变量是根据专多元线性回归方程中所包含的自变量是根据专业知识和经验事先选择好的,但在许多回归分析的、业知识和经验事先选择好的,但在许多回归分析的、应用中,由于没有清晰的理论依据,回归模型所包应用中,由于没有清晰的理论依据,回归模型所包含的自变量难以预先确定,如果将一些不重要的自含的自变量难以预先确定,如果将一些不重要的自变量也引入方程,会降低模型的精度,因此选择有变量也引入方程,会降低模型的精度,因此选择有意义的自变量是回归分析的第一步。意义的自变量是回归分析的第一步。选择自变量的基本思路是:尽可能将回归效果选择自变量的基本思路是:尽
2、可能将回归效果显著的自变量选入回归方程中,将作用不显著的特显著的自变量选入回归方程中,将作用不显著的特别是与自变量有密切线性关系的自变量排除在外。别是与自变量有密切线性关系的自变量排除在外。第七章 第一节第一节机动 目录 上页 下页 返回 结束 自变量选择对估计和预测的影响在多元线性回归模型中,自变量的选择实质上就是模型的选择。),0(2nnINXY其中:Y是nx1的观测值,X是nxm结构矩阵,并假定X的秩为m。现设一切可供选择的变量是t个,它们组成的回归模型称为全模型(记m=t+1)是mx1未知参数向量,qp,qpXXX其中:其中:Y是是1n的观测值,的观测值,p是是1p未知参数向量,未知参
3、数向量,pX是是pn结构矩阵,并假定结构矩阵,并假定pX的秩为的秩为p。下面的回归模型称为选模型:下面的回归模型称为选模型:),0(2nppINXYtxxx,21txxx,211 tp现从现从这这t个变量中选个变量中选t变量,不妨设变量,不妨设矩阵矩阵X可作如下的分块(记:可作如下的分块(记:),那么对全模型中的参数,那么对全模型中的参数 和结构和结构自变量的选择问题可以看成是这样二个问题自变量的选择问题可以看成是这样二个问题:究竟应用全模型还是用选模型;究竟应用全模型还是用选模型;若用选模型,则究竟应包含多少变量最适合。如若用选模型,则究竟应包含多少变量最适合。如果全模型为真,而我们用了选模
4、型,这就表示在果全模型为真,而我们用了选模型,这就表示在方程中丢掉了部分有用变量,相反,如果选模型方程中丢掉了部分有用变量,相反,如果选模型为真,而我们选用了全模型,这就表示在方程中为真,而我们选用了全模型,这就表示在方程中引入了一些无用变量,下面从参数估计和预测两引入了一些无用变量,下面从参数估计和预测两个角度来看一看由于模型选择不当带来的后果。个角度来看一看由于模型选择不当带来的后果。在点)(1txxx点上的预测值为 yx 为了讨论方便起见,先引入几个记号:2,全模型中参数 的估计:1()X XX Y211()()Y IX X XX YnR X其中:R(X)为矩阵X的秩。2,在选模型中参数
5、在选模型中参数 的估计:的估计:121()1()()ppppppppppX XX YY IXXXXYnR X),(),()(11tppqpxxxxxxx在在 上的预测值上的预测值pppxy分块矩阵求逆公式:DCCBA1111111111111111111111111)()(CBCDBCDCDBBCCDBBCDBCDDBCDCDBCCDBDCCBA均方误差的概念 对无偏估计常用 来衡量估计量的好坏,而对有偏估计则相应采用均方误差 Var)(EMSE定理定理(对估计的影响)(1)全模型为真时,E,除了0q或0qpXX外,ppE(2)()()ppDD为非负定矩阵;(3)当q()qqD 为非负定矩阵时
6、,)()pppppED(为非负定矩阵;(4)时等号成立。仅当0,q22EEp 定理定理(对预测的影响)(1)当全模型为真,则xyE,除0q外xyEp(2))()(ppxyDxyD(3)当()qqqD 为非负定矩阵时,2)()(ppxyExyD 注注:由上述定理说明,若全模型为真的而误用选模型 ppx作为y值的预测的话,所得的估计是有偏的.但预测方差会有所下降。而对有偏的估计,一般可用均方差去表明估计的好坏,在均方误差的意义下,预测的均方误差也是会下降。所以删去一些影响不大,但回归系数方差过大的变量(用 为非负定矩阵来()qqqD 表示),对预测精度的提高是有利的.综合以上所述,一般我们尽可能使
7、模型的变量少而精,要引入对y有显著影响的变量,而对y并不很显著的变量要删除,这样不仅对估计而且对预测也有利.第七章 第二节第二节机动 目录 上页 下页 返回 结束 自变量选择方法自变量选择准则自变量选择准则若一个多元回归的问题中有若一个多元回归的问题中有t可供选择的自变量,那可供选择的自变量,那么所有可能的回归方程有么所有可能的回归方程有 2t-1个,下面给出一些自个,下面给出一些自变量选择的准则,希望能从变量选择的准则,希望能从 2t-1个回归方程中选择个回归方程中选择一个最合理的方程一个最合理的方程.对全模型,记:对全模型,记:SSTSSERXXXXHYHIYSSE1,)(,)(21对选模
8、型,记:对选模型,记:SSTSSERXXXXHYHIYSSEppppppppp1,)(,)(21准则准则1 平均残差平方和达到最小.pnSSEPp2pSSE随随p的增加而减少的增加而减少,但但pn也随也随p的增加而减少。但前面的的增加而减少。但前面的ix,由于其对由于其对y的作用很显著的作用很显著,使使pSSE减少得减少得较快较快,能使能使pnSSEp随的随的p增加而增加而减少减少,但当但当ix对对y的作用不明显时的作用不明显时,随差随差p的增加,的增加,pSSE减少的很慢,而减少的很慢,而pn1随随p的增加继续增加,这就使的增加继续增加,这就使()PSSEnp随随p的增加而增加,取的增加而增
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 自变量 选择 逐步回归