小卫智库 | 对于P值问题，你怎么看？

卫灿公卫考研研习社 11-04 63

前言：

如今同学们对“概率p值的含义”可能比较珍视，姐妹们都需要知道一些“概率p值的含义”的相关知识。那么小编也在网上收集了一些关于“概率p值的含义””的相关知识，希望小伙伴们能喜欢，你们快快来了解一下吧！

对于公卫人来说，在统计学的殿堂中，P值是神圣的，有着超乎寻常的地位。然而，P值总是给我们的实验和数据分析带来一些意想不到的结果，或好或坏，令人深受P值的荼毒。

那么，我们今天就来探讨一项近几年来在学术界引起的争议问题——P值以及P值该不该废？

首先，和大家说一下，P值是什么？

P值是什么

P值是用来判定假设检验结果的一个依据，根据不同的分布类型使用分布的拒绝域来比较P值与检验水准的大小以做出对应的推断结论。

P值的意义

P值（P value）就是当原假设为真时，所得到的样本观察结果或更极端结果出现的概率。

如果P值很小，说明原假设情况的发生的概率很小，那么一旦出现了原假设的结果，根据小概率原理，我们就有理由拒绝原假设。P值越小，我们拒绝原假设的理由越充分。总之，P值越小，只能越有理由拒绝原假设。

但是检验的结果究竟是“显著的”、“中度显著的”还是“高度显著的”需要我们自己根据P值的大小和实际问题来判断。

P值与Ⅰ类错误的关系

说到P值，我们就会想到Ⅰ类错误。在我们统计课本的学习中，我们认为P值和Ⅰ类错误是等价的。但是在实际的应用中，这种误解会极大地影响研究的可重复性、医疗实践中的治疗选择和实证分析中的模型规范[1]。

P值哪里存在争议（缺点）

众所周知的，P值是统计有效性的“黄金标准”。在计算机时代，即使是复杂的统计，P值也很容易计算，P值的范围在0-1之间，并且可以被人们直接的理解；大多数受过统计学训练的人可能都同意：P值低表示可能有（统计学）意义，而当P值较高时，这一点就不那么明显了。

低P值通常出现在一些临床研究出版物的结果中；这些文章经常对P值进行重复的评价，P值的含义几乎普遍被曲解，很多学者认为仅仅通过P值得出的结论是不可靠的，而且会经常夸大不利于零的证据[2]。

P值还被指责本质上具有欺骗性，因为它们将效应大小和样本量混淆成一个令人困惑的数字。另外，还需注意，P值不是客观的衡量标准，它们不具备我们认为的证据的性质。但从逻辑上讲，似乎有资格作为支持或反对任何事情的衡量标准。

举个例子：

假设一种止痛药有24小时的有效记录，而现在另一家制药商声称其新的非处方药可以持续更长时间。

一名调查员想要测试这一说法是否属实。研究人员没有从所有服用新药的患者那里收集数据(这通常是不可行的)，而是决定随机调查50名患者，以收集新止痛药持续多长时间(小时)的数据。

因此，研究人员现在有了一个随机变量X，即来自50名患者样本的平均小时数。这是一个随机变量，因为50名患者是随机选择的，在进行调查和计算平均值之前，没有人知道这个变量的值是多少。

然而，每个调查都产生一个固定的数字X，它本身不是随机变量，而是随机变量X的实现或观测(以下，设X表示随机变量，X表示固定值，即X的观测)。

直观地说，如果调查得出的值(止痛药的平均持续时间)非常接近24，比如23或25，研究人员就不会相信新的止痛药更糟或更好。如果调查达到平均32小时，调查者会相信它确实持续了更长时间。

如果调查显示平均持续时间为22或26小时，很难得出结论。这种新止痛药的使用时间真的更短、更长，还是随机产生的(毕竟，只有50名患者接受了调查)？[2]

这样的话，我们难以得知，很难仅仅通过P值的大小，进行判断谁更有效。

归根到底，就是因为我们通过统计学方法算出来的P值存在不确定性，统计测试的结果确实会影响我们做出推断——即：是否认为一个经过测试的假设可能是正确的。

因此，评估统计测试结果就是判断它们对科学命题的证据支持与否。不幸的是，P值不是在该过程中使用的可靠度量。P值也不是一个假设真实性的可靠指标，无论它是零假设还是替代假设。

P值该废么？

对于P值何去何从的问题，一直争论不休，没有统一的学术界标准。引起热议的是在2019年，3位统计学家在《Nature》上发布公开信，号召专家们放弃追求“统计学意义”，这封公开信一周之内吸引了超过800名研究人员共同支持。这不禁引起作为小白的我们深思，统计学还有用么，我们还要不要继续学习统计学呢？

▲ 图片来源于网络

三位统计学家提出建议，首先要明确必须停止的事：永远不应该仅仅因为P值大于阈值(如0.05)就得出“没有差异”或“没有关联”的结论；或者，仅仅因为置信区间包含0就得出这样的结论。

然而，在我们学习统计学的过程，我们却理所当然的把P=0.05作为显著性的标准。同时，我们在开始学习统计学的时候，一直被告诫，统计学上的显著性，并不等于临床上的显著性。我们要回到具体问题具体分析上。

也就是说，统计学的结果有不确定性，然而我们没有一种方法，能够明确的进行不确定性的判断，所以说，禁止显著性检验和接受不确定性，尽管在许多情况下是合理的，但几乎没有提供一个新的方法对我们的研究来进行判断。

简而言之，我们迫切的需要正确的理解P值，需要进一步探索如何更好的进行统计分析，选择合适的指标来取代P值。让统计分析更好地理解运用于实际中。

同时，三位科学家指出，停止使用P值，并不是禁止。在某些情况下，P值仍然可以作为决策的标准。这其实与我们学习的统计学并不冲突，也就是说，避免P值的决定性标准，改变传统的非黑即白的判断，即如果仅仅侧重于统计学意义的估计和讨论是有偏见的。

总之，我们对待科学研究要抱有怀疑的态度，切莫以偏概全，要做到具体问题具体分析。不要太相信统计分析的数据结果，要结合实际情况和专业知识去判断是否具有实际意义。

浅谈p值（p-value是什么）