高维度问题 -- 蓝海的科学世界

当解释变量的数目$p$，大于或者近似于观测数据数目$n$，则出现了高维度问题。高维度问题最明显的挑战是最小二乘方法不适用。（不能得出唯一解）但是更为严重的是过拟合。因为大的$p$，提供了太多的复杂度，回归拟合的不再是重复验证的统计逻辑，而是一次次偶然的噪声。这往往使得拟合的训练集MSE以及$R^2$都特别的漂亮，但是检验集的MSE则几乎与其自身的variance相当（模型几乎没有解释力）。另外即便通过我们之前讨论的方法，比如变量选择法、lasso方法以及降低维度的方法能够获得具备一定解释能力的模型，我们在分析模型的时候，也还要注意，在高维问题时，共线性会显得特别的突出。它会使得单独的理解$\beta_i$变得没有意义。