酷应用

被Nature科学家封杀的P值，到底有什么意义？

百家作者：大数据文摘 2019-07-28 06:44:08

大数据文摘出品

编译：武帅、宁静

我们在日常生活中做出决定时，总会在心里提前打个“小算盘“——估算一下概率值P，研究者做某项检测，根据概率值P，得出最终的结果；资本家做投资，根据以往数据的统计分布，估算P值，得出最终的决策等等。P值在潜移默化地影响着我们的生活，那么有没有想过我们所依赖的P值到底可靠吗？

P值的表面意义是，当原假设为真时，检验统计量出现某不应该值所需的概率；而其实际意义则是，只需多小的概率就能出现拒绝原假设的检验统计值。

Nature上的统计学家早就发现，P值本身无法提供支持相关模式或假说之证据，P值可能给我们每个人都上演了一场“楚门的世界”，先附上Nature链接，看看他们怎么说。

Nature链接：

https://www.nature.com/articles/d41586-019-00857-9

P值不可靠？

发布这篇文章的三位统计学家，分别是瑞士巴塞尔大学的动物学教授Valentin Amrhein，加州大学洛杉矶分校的流行病学的统计学教授Sander Greenland，伊利诺伊州埃文斯顿西北大学的统计学方法学家和营销学教授Blake McShane。

他们提出：“我们永远不应该仅仅因为P值大于0.05之类的阈值而得出“没有差异”或“没有关联”?，或者等价，因为置信区间包括零。我们也不应该断定两项研究之间存在冲突，因为一项研究结果具有统计学意义，另一项则没有。这些错误会浪费研究工作并误导政策决策。"

（注： α 显著性水平，是接受或拒绝原假设的概率分界点，如果p< α，就认为在1-α的置信水平下，样本观测值与总体假设值之间的差异是显著的，从而不能接受原假设，即拒绝原假设。大家对0.05的显著性水平比较认可，把p<0.05作为了一种比较公认的判断标准，因而符合p<0.05的研究结果就比较容易得到发表）

同时，文章指出，当区间估计包括严重的风险增加时，得出结论认为统计上不显着的结果“无关联”是荒谬的。声称这些结果与显示相同观察效果的早期结果形成对比同样荒谬。然而，这些常见的做法表明，依赖统计显着性阈值可能会误导我们。（参见下图）

这些错误以及类似的错误普遍存在，对数百篇文章的调查发现，统计上不显着的结果被解释为“没有差异”或“没有影响”的约有一半。

这个发现说明，我们所看到的文献，都是所谓通过了显著性检验的部分，或者说都是符合研究者意图的部分，而对于那些没有通过检验、不符合研究者意图的研究到底是个什么情况，我们就不得而知了。

例如研究者为了使研究结果符合自身意图，事先通过样本选择、条件控制等手段对实验设计进行了优化，选择性地只报告符合意图的变量，甚至选择性地删除、补充或修改数据，选择性地扩大样本容量等等。显然，这种为了发表文章而人为地达到p<0.05要求的做法，是严重违背实事求是的科学精神和学术道德的，当然也严重损害了假设检验的声誉。

那么P值的真正含义是什么呢？

或许，数据科学家Admond Lee会给我们答案，下文是他对于P值的探索经历，可随文摘菌一探究竟。（Admond Lee是知名的数据科学家和顾问，凭借其在数据科学和行业知识方面的极强的专业素养，帮助那些初创公司的创始人和各公司利用数据解决他们遇到的问题）

探索P值的真正含义

犹记得当我作为暑期学生在欧洲核子研究中心进行第一次海外实习时（注：欧洲核子研究中心，法语为Conseil Européenn pour la Recherche Nucléaire, 简称CERN，位于瑞士日内瓦西部接壤法国的边境，是世界上最大的粒子物理学实验室，同时也是万维网的发祥地。最近以探测到“上帝粒子”—希格斯玻色子（Higgs boson）而为大众所熟知），那时候大多数人还在谈论着希格斯玻色子的发现，即使已经确认希格斯玻色子的发现满足5个标准差阈值。（即P值为0.0000003）

然而，那时候我对p值、假设检验甚至统计显著性都一无所知。接下来的事你猜对了。我用谷歌搜索了p-value这个词，看了维基百科后我却更困惑了…

在统计学的假设检验中，对一个给定的统计模型来说，p值或概率值是一个特定的概率，即当原假设为真时，统计结果（例如两个对照组中样本均值差的绝对值）不小于实际观测值的概率。
? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ??——维基百科

所以P值的真正含义是什么呢？到了现在，尤其是当我进入数据科学领域之后，我才慢慢理解了p值的含义，以及它是如何在某些实验成为决策制定工具的一部分的。

因此，我决定讲清楚p值是什么，以及如何将它们用于假设检验，以期有助于你更加直观透彻地理解p值，显然我们不能跳过对其他相关概念和p值定义的基本理解，但我保证会以一种直观的方式进行解释，而不是直接向你扔去一堆技术术语。

为你提供从构建假设检验到理解P值，我将从以下四个方面解释我们的决策过程的全流程，我“墙裂”建议你仔细地阅读所有内容，从而对P值有一个详细的理解：

假设检验
正态分布
什么是p值？
统计显著性

假设检验

? ? ? ? ? ? ?

假设检验

在讨论P值的含义之前，让我们先理解下假设检验吧。P值是用于确定我们结果的统计显著性的，而我们的最终目标就是要确定我们结果的统计显著性。

统计显著性是建立在下面这三个简单的概念上的：

假设检验
正态分布
P值

假设检验是用来检验利用样本数据所得到的原假设（null hypothesis，也称零假设，虚无假设）是否符合总体特征。备择假设（alternative hypothesis，也称对立假设）则是当原假设被认为是错误的时候你需要接受的假设。

换句话说，我们首先要建立原假设，然后用样本数据检验原假设是否成立。如果不成立，那我们就接受备择假设。就这么简单。

为了判断原假设是否成立，我们需要用P值来衡量它的统计显著性。如果数据更倾向于支持备择假设，那我们就拒绝原假设，接受备择假设。这将在后面的部分中进一步解释。

让我们用一个例子来加深对概念的理解，这个例子在之后介绍其它概念时也会用到。

示例：假设一家披萨店声称他们的配送时间不多于30分钟，但你觉得他在说谎。于是你随机抽取了一些配送时间，然后用假设检验的方法来验证你的观点：

原假设—平均配送时间不多于30分钟
备择假设—平均配送时间大于30分钟

我们需要确定的是样本数据更倾向于支持哪一个假设。因为我们只关心平均配送时间是否大于30分钟，所以我们这里使用单侧检验。因为我们只想知道配送时间大于30分钟的可能性，所以忽略配送时间不大于30分钟这一方面的可能性。换句话说，我们只想知道披萨店是否撒谎了。

假设检验的常用方法之一是Z检验。这里我们只想知道结果的含义，所以对于该方法的底层理论就不做详细介绍了。

正态分布

均值为μ、标准差为σ的正态分布

正态分布是一个用来描述数据分布特征的概率密度函数，正态分布有两个参数-平均值μ和标准差σ，平均值描述的是数据分布的集中趋势，它决定了正态分布的峰值位置。标准差描述的是数据分布的离中趋势，它决定了这些值与平均值的距离。

正态分布通常与68-95-99.7法则（即3σ法则）联系在一起。（如上图所示）

68%的数据在平均值的1个标准差内
95%的数据在平均值的2个标准差内
99.7%的数据在平均值的3个标准差内

还记得我在开头谈到希格斯玻色子的发现时，提到的5个标准差的阈值吗（"five sigma”threshold）？

5σ是指99.9999426696856%的数据都能够证实确实发现了希格斯玻色子。这是一个严格设置的阈值，以避免任何潜在的错误信号。

哇，好酷啊！现在你可能想知道，“那如何将正态分布应用到以前所说的假设检验中去呢？”

因为我们用Z检验来做假设检验，那我们就要先计算Z得分（Z-scores）。Z得分是指一个数据点离平均值有多少个标准差的距离。在这个例子中，每个数据点就是我们收集的披萨配送时间。

? ? ? ? ? ? ?

计算每个数据点的Z得分的公式

注意，当我们计算好了每个披萨配送时间的Z得分、并且绘制了如下的标准正态分布曲线图后，x轴上的单位就由分钟变成了标准差，这是因为我们通过将数据减去平均值后再除以标准差，从而对数据做了标准化处理（见上方公式）。

观察标准正态分布曲线图很有用，因为我们可以将测试结果和经过标准化处理的“正常”总体进行比较。尤其是变量的量纲不同时，标准化处理就十分有必要了。

Z得分的标准正态分布

Z得分可以告诉我们整体数据相对于平均值的位置。

我很喜欢Will Koehrsen的说法——Z得分越高或是越低，结果就越不可能是偶然发生的，结果也就越有意义，但是，Z得分究竟为多少时，才能确保我们的结果是有意义并且可以量化的呢？

敲黑板，划重点，这时候就需要用到我们之前谈到的P值了。通过和预先设置的显著性水平（也称为）进行比较，我们就可以判定结果是否具有统计显著性。

什么是P值？

Cassie Kozyrkov对p值的精彩解释

终于说到了P值！之前的那些内容只是一个铺垫，现在有请我们的主角—P值登场！但是，为了理解这个神秘的p值，以及它是如何应用到假设检验中去的，你们还是不能把先前说到的那些一股脑儿地还给我。

如果你还记得上面的内容，那么恭喜你，接下来你读到的会是这篇文章中最精彩的部分。这里，我们不用维基百科所给出的关于P值的定义，而是用我们之前提到过的披萨配送时间！

回想一下，我们曾为了检验平均配送时间是否大于30分钟，而随机抽取了一些披萨配送时间。如果最终结果支持披萨店的说法（即平均配送时间不多于30分钟），我们就接受原假设；否则，就拒绝它。

在这里p值就派上用场了：我手头这些数据足以说明披萨配送时间不多于三十分钟，即原假设是正确的吗？而p值正是用概率回答了这一问题。p值越小，证据看起来就越无力。相应地，原假设看起来就越荒谬。当我们认为原假设过于荒谬时应该怎么办呢？当然是拒绝它，转投备择假设的怀抱啦！如果p值小于一个预先设置的显著性水平（一般也称为α值，我叫它荒谬阈值——不要问我为什么，我只是觉得这样更容易理解），就拒绝原假设。

现在我们终于理解p值的意义了。让我们趁热打铁，应用到我们的例子中去吧。

披萨配送时间中的p值：既然我们已经收集了一些样本时间，就可以计算一番了。我们发现，平均配送时间延长了10分钟，相应的p值为0.03。这意味着，由于随机噪声的干扰，我们有3%的可能性观测到平均配送时间至少延长了十分钟。p值越低，结果就越有意义，它由噪声引起偏差的可能性就越小。

在我们的例子中，大多数人对p值都有一个常见的误解：p值为0.03意味着结果中的3%情况是偶然出现的。这个想法是错误的。人们往往想得到一个明确答案（包括我），也正是因为这点，怎样解释p值困惑了我很长时间。

p值说明不了任何事。它仅仅是以预期比较为基础的一种方法，帮助我们做出一个相对合理的决策。
? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ——?Cassie Kozyrkov

下面是如何用0.03的p值来帮助我们做出合理决策的方法：

想像一下，我们现在生活在一个披萨平均配送时间不多于30分钟的世界，在分析了样本数据之后，p值为0.03，低于显著性水平0.05（假定我们预设了该显著性水平），那么我们就可以说这个结果具有统计显著性。我们坚信披萨店是不会欺骗我们的。可是，当具有统计显著性的结果告诉我们事实并不是这样时，我们就需要考虑下我们最初的信念是否还有意义。那我们又该怎么做呢？首先，我们要想尽一切办法来维护原假设。但是随着披萨店得到的差评越来越多，并且还经常为不及时的配送寻找糟糕的借口，以致于我们这些友军也觉得继续为披萨店进行辩护是十分荒谬的，因此，我们决定拒绝原假设！最后，我们做出了一项合理决策，就是再也不在这家店买披萨了。你应该早已意识到了...根据我们的例子来看，p值不能用于证明任何东西。

我认为，p值就是当结果具有统计显著性时，一个用来挑战我们初始信念（原假设）的工具。当我们觉得初始信念十分荒谬那一刻（假设p值显示结果是统计显著性的），我们就决定抛弃它（拒绝原假设），并做出一个合理的决定了。

统计显著性

最后，我们将此前提到的所有内容放在一起，并检测结果是否具有统计显著性，只有p值是不够的，我们还需要设置一个阈值（又叫做显著性水平—α）。每次实验之前都应该预先设置好α以防偏差。如果观察到的p值小于α值，那么我们就认为结果具有统计显著性。通常我们将α值设定为0.05或0.01（这个值的设定取决于你所要研究的问题）。

如前所述，假设实验前我们就把α值设定为0.05，因为p值为0.03，低于α值，所以我们认为所得到的结果具有统计显著性。

为了方便参考，下面列出整个实验的基本步骤：

陈述原假设
陈述备择假设
确定要使用的α值
找到与你的α水平相关联的Z得分
使用该公式查找测试统计信息
如果检验统计量的值小于α水平的Z得分（或者p值小于α值），就拒绝原假设。否则，接受原假设。

? ? ? ? ? ? ? ?

步骤5中用来计算测试数据的公式

对于P值的思考

不可否认的是，p值本来就让很多人困惑不已。作为一名数据科学家，Admond Lee也是花了很长时间才真正理解了p值的含义以及如何将它应用到决策过程中去。但是不要过度依赖p值，因为它只能帮助到我们整个决策中的一小部分而已。