在线性回归中,有几个概念不太被重视。其中有outlier和high leverage以及方差浮动率(VIF)

Outlier v.s. High leverage

Outlier指的是在一个观察集合$(x,y)$中,y的值与x不相匹配的状况。这种不匹配当然在某种程度上会影响我们的线性回归的结果。所以,如能确性该种不匹配是由于记录或者观察错误而形成的,则可以将outlier直接剔除出观察集合,重新进行线性回归。

High Leverage是指观察集合中的某个(些)“离群索居”的鼓励的点。因为它(们)远离常见的x的取值范围,从而对于回归的结果,尤其是全局线性回归产生较大的影响——这种影响甚至会超过outlier。

对于outlier我们的识别方法是进行线性回归后,观察拟合值与实际观察到的y之间的残差,往往进行student分布标准化之后,如果绝对值较大(大于5,或者3),则应该考虑为outlier。至于outlier是否需要剔除,则当综合考虑研究对象的特征。某些outlier中可能含有尚未被发觉的逻辑,不可一概而论。

对于High Leverage,统计上leverage statistics的值总在$1/n$和1之间,均值为$(p+1)/n$。其中n是观察数量,p是x的维度。如果leverage远远高于$(p+1)/n$,则当考虑为high leverage。对于这种情形,处理起来往往比outlier还要棘手。简单剔除(多数处理方法)则可能使得观察局限于过小的空间中而失掉意义,包含进入分析,又怕high leverage与outlier重合,是为“鸡肋”。 R语言中的hatvalues()函数,可以帮助计算该值。

VIF 与collinearity

共线性(collinearity)是线性回归中比较讨厌的性质,其本质特点是解释变量x的维度上的冗余。有一个或者若干个维度的观察,可以被另外一个或者若干维度的线性组合高度拟合。虽然collinearity不影响被解释变量的拟合精度甚至预测的精度,但是它干扰了回归系数的稳定性,从而使得模型的解释能力被削弱甚至破坏。方差浮动率(VIF)是全参数模型是其回归系数的方差与单参数模型时回归系数方差的比值。最小值为1,绝对灭有共线性。通常,实际的例子中解释因子之间多少存有共线性。 作为参考,如果VIF的取值超过5或者10就绝对值得分析该解释变量与其他变量之间的共线性,方法是对它们进行线性回顾,查看其$R^2$。如$R^2$接近1,则共线性明确存在,在重要的因子与该检验的因子之间,当进行适当的取舍。 在R语言中car包里有函数vif()可以计算VIF值。