酷应用

统计学常犯的18个错误，请务必跳过这些坑！

百家作者：数据分析 2020-02-24 00:30:22

来源：知乎

本文约为2400字，建议阅读6分钟

本文总结统计学中经常犯的错误，知道这些常识，可以在与别人”嘴炮“时更具专业性。

1. 变量之间关系可以分为两类：

函数关系：反映了事务之间某种确定性关系。

相关关系：两个变量之间存在某种依存关系，但二者并不是一一对应的；反映了事务间不完全确定关系；

2. 为什么要对相关系数进行显著性检验？

实际上完全没有关系的变量，在利用样本数据进行计算时也可能得到一个较大的相关系数值（尤其是时间序列数值）。
当样本数较少，相关系数就很大。当样本量从100减少到40后，相关系数大概率会上升，但上升到多少，这个就不能保证了；取决于你的剔除数据原则，还有这组数据真的可能不存在相关性；

改变两列数据的顺序，不会对相关系数，和散点图（拟合的函数曲线）造成影响；对两列数据进行归一化处理，标准化处理，不会影响相关系数；我们计算的相关系数是线性相关系数，只能反映两者是否具备线性关系。相关系数高是线性模型拟合程度高的前提；此外相关系数反映两个变量之间的相关性，多个变量之间的相关性可以通过复相关系数来衡量；

3. 增加变量个数，R2会增大；P值，F值只要满足条件即可，不必追求其值过小；

4. 多重共线性与统计假设检验傻傻分不清？

多重共线性与统计假设没有直接关联，但是对于解释多元回归的结果非常重要。相关系数反应两个变量之间的相关性；回归系数是假设其他变量不变，自变量变化一个单位，对因变量的影响，而存在多重共线性（变量之间相关系数很大），就会导致解释困难；比如y~x1+x2；x·1与x2存在多重共线性，当x1变化一个单位，x2不变，对y的影响；而x1与x2高度相关，就会解释没有意义。

一元回归不存在多重共线性的问题；而多元线性回归要摒弃多重共线性的影响；所以要先对所有的变量进行相关系数分析，初步判定是否满足前提---多重共线性。

5. 时间序列数据会自发呈现完全共线性问题，所以我们用自回归分析方法；

6. 什么样的模型才是一个好模型？

在测试集表现与预测集相当，说明模型没有过度拟合：在训练集上表现完美，在测试集上一塌糊涂；原因：模型过于刚性：“极尽历史规律，考虑随机误差”；拟合精度不能作为衡量模型方法的标准；

一个好的模型：只描述规律性的东西（抓住事务的主要特征），存在随机误差是好事，在预测时，就有了“容错空间”，预测误差可能减小！

7. 假设检验显著性水平的两种理解：