SPSS岭回归分析



具体答疑展示请点击查看:论文统计指导服务,真免费,永久免费,超靠谱,快来加入吧
概述:
        在学习多重线性回归和logistic回归时,难免会遇到自变量之间存在共线性问题,所谓共线性,是指两个或多个自变量之间存在明显的相关关系,在线性拟合的过程中,导致回归方程出现拟合效果差、回归系数难以解释等问题。某自变量X1与Y为正相关关系,但是线性回归显示X1的回归系数为负数,和实际情况相反,这不符合现实情况,属于比较典型的共线性问题。多重共线性处理包括:实验设计时对可能存在共线性的变量进行控制、删除严重共线性的变量或是增加样本量等。但是对于已经收集完数据的研究来说,以上方法都不太方便。这个时候普通线性回归已经不合适了,需要用到岭回归来解决自变量之间的共线性问题。
        岭回归是采用改进的普通最小二乘法,用于处理自变量多重共线性问题的一种有偏估计回归方法。岭回归放弃了普通最小二乘法的无偏估计,损失了部分信息,因此岭回归方程的R2通常会稍低于普通最小二乘法回归,但其估计的偏回归系数往往更接近真实的情况,从而提高了回归模型的稳定性和可靠性,对于病态数据的修复和拟合,具有较好的效果。   
案例实操:
        某医师收集了胎儿的身长、头围、体重和胎儿周龄数据,希望通过身长、头围、体重来预测胎儿周龄,建立回归方程。这些观测值均是连续性数值变量,所以很容易想到建立一个多重线性回归方程来解决问题。

案例分析及统计策略分析
        该案例数据为连续性变量,希望通过身长、头围、体重来预测胎儿周龄,显然可以用多元线性回归来处理。但多元线性回归分析处理结果如下。VIF值达到200多,同时自变量头围的回归系数=-2.159,头围和胎儿周龄负相关?随着胎儿的头围增长,胎儿的周龄变小?显然不符合医学常理。因此说明自变量存在多重共线性。该线性回归分析结果不可靠。需要用到岭回归分析。

SPSS实际操作(源数据sav,可在公众号扣1获取)
SPSS中没有为岭回归分析提供对话框界面,但为之编制了一套宏程序,名为Ridge regression.sps,放在SPSS安装目录的Sample文件夹中,其调用方式如下:
INCLUDE'Ridge regression.sps程序所在路径\Ridge regression.sps'.ridgereg enter=自变量/dep=因变量/start=k值起始值,默认为0/stop=k值终止值,默认为1/inc=k值搜索步长,默认为0.05/k=允许搜索的k值个数,默认为999.
1、文件-新建-语法。打开语法编辑窗口。

2、在语法编辑窗口中输入如下命令,然后点击“运行”-“全部”。结果窗口中会给出相应的分析结果。

分析结果描述
   下面给出了不同k值下的决定系数和个变量系数的变化情况,因岭回归在计算时首先会对全部变量进行标准化,故输出只给出标准化回归系数,无常数项。从下表可见当k=0.04-0.06时,回归系数开始趋于稳定,本例选择K=0.05,得到因变量y的回归方程为=0.318*zlong+0.111*ztouwei+0.538*zweight。该方程对应的决定系数为0.949,比原方程0.975略低,但避免了共线性的影响所带来的方程不准确。岭回归分析通过丢失少量信息换取回归方程的合理性。

总结及拓展衍生
   好多同学反应,“Ridge regression.sps程序所在路径“不知道在那里找。我们可以通过在SPSS安装文件里面,右上角搜索Ridge regression文件,找到Ridge regression(Simplified Chinese那种),右击选择”属性“,可以找到Ridge regression程序所在路径。如下图:





到顶部