跳转至

P值

什么是 P 值?

在统计学中,p 值被定义为一个数字,它表示如果零假设成立,你获得至少等于或大于实际观测值的概率有多大。

p 值可以替代拒绝域,提供可以拒绝零假设的最小显著性水平。p 值越小,就越能支持备择假设。

政府机构经常使用 p 值来提高研究或报告的可信度。例如,美国人口普查局规定,任何 p 值大于 0.10 的分析都必须附带一份声明,说明该差异在统计学上与零没有差异。人口普查局还制定了标准,规定哪些 p 值可以被各种出版物接受。[1]

关键要点

  • P 值是一种统计测量方法,用于根据观测数据验证假设。
  • P 值衡量的是在零假设为真的前提下,获得观测结果的概率。
  • P 值越低,观测差异的统计显著性就越大。
  • 通常认为 p 值小于等于 0.05 在统计学上是显著的。
  • P 值可以作为假设检验的预选置信水平的替代或补充。

理解 P 值

P 值通常使用 p 值表或电子表格/统计软件来查找。这些计算基于被测特定统计量的假定或已知的概率分布。样本大小决定了观测数据的可靠性,并直接影响 p 值计算的准确性。p 值方法进行假设检验使用计算出的 p 值方法进行假设检验使用计算出的 P 值是通过观测值和选定的参考值之间的偏差计算得出的,并考虑统计量的概率分布,两个值之间的差异越大,对应的 p 值越小。

在数学上,p 值是使用积分微积分计算的,它计算概率分布曲线下所有统计量的值的面积,这些值与参考值的距离至少与观测值与参考值的距离一样远,相对于概率分布曲线下的总面积。标准差量化了数据点与平均值的离散程度,在计算中起着重要作用。

p 值的计算因执行的测试类型而异。三种测试类型描述了概率分布曲线上的位置:左尾测试、右尾测试或双尾测试。在每种情况下,自由度在确定分布的形状以及 p 值的计算中都起着至关重要的作用。

简而言之,两个观测值之间的差异越大,该差异是由于简单的随机机会造成的可能性就越小,这反映在较低的 p 值中。

P 值方法进行假设检验

P 值方法进行假设检验使用计算出的概率来确定是否有证据拒绝零假设。这种确定在很大程度上依赖于检验统计量,该统计量总结了来自样本的与被检验假设相关的信息。零假设,也称为猜想,是关于总体(或数据生成过程)的初始声明。备择假设说明总体参数是否与猜想中声明的总体参数值不同。

在实践中,会预先声明显著性水平,以确定 p 值必须有多小才能拒绝零假设。由于不同的研究人员在检查一个问题时使用不同的显著性水平,因此读者有时可能难以比较来自两个不同测试的结果。P 值为这个问题提供了一个解决方案。

重要提示:即使是较低的 p 值也不一定是统计显著性的证明,因为仍然存在观测数据是偶然结果的可能性。只有重复的实验或研究才能确认关系是否具有统计显著性。

例如,假设一项比较两种特定资产回报率的研究由不同的研究人员进行,他们使用相同的数据但使用不同的显著性水平。研究人员可能会对资产是否存在差异得出相反的结论。

如果一位研究人员使用 90% 的置信水平,而另一位研究人员需要 95% 的置信水平才能拒绝零假设,并且如果两种回报率之间观察到的差异的 p 值为 0.08(对应于 92% 的置信水平),那么第一位研究人员会发现这两种资产存在统计上显著的差异,而第二位研究人员会发现回报率之间没有统计上显著的差异。

为了避免这个问题,研究人员可以报告假设检验的 p 值,并允许读者自己解释统计显著性。这被称为假设检验的 p 值方法。独立的观察者可以注意到 p 值,并自行决定这是否代表统计上显著的差异。

P 值的例子

一位投资者声称他们的投资组合的表现与标准普尔 (S&P) 500 指数相当。为了确定这一点,投资者进行了双尾检验。

零假设声明投资组合的回报率在指定时期内与标准普尔 500 指数的回报率相当,而备择假设声明投资组合的回报率与标准普尔 500 指数的回报率不相当——如果投资者进行单尾检验,则备择假设将声明投资组合的回报率小于或大于标准普尔 500 指数的回报率。

p 值假设检验不一定使用预先选择的置信水平,投资者应在该水平重置回报率相当的零假设。相反,它提供了一种衡量有多少证据可以拒绝零假设的方法。p 值越小,反对零假设的证据就越多。

因此,如果投资者发现 p 值为 0.001,则有强有力的证据反对零假设,并且投资者可以自信地得出结论,即投资组合的回报率与标准普尔 500 指数的回报率不相当。

虽然这没有提供关于投资者何时应该接受或拒绝零假设的确切阈值,但它确实具有另一个非常实际的优势。P 值假设检验提供了一种直接的方法来比较投资者在选择相对于标准普尔 500 指数等基准的多种不同类型的投资或投资组合时可以拥有的相对信心。

例如,对于两个投资组合 A 和 B,它们的表现与标准普尔 500 指数不同,p 值分别为 0.10 和 0.01,投资者可以更加确信,p 值较低的投资组合 B 实际上会显示出始终不同的结果。

0.05 的 P 值是否显著?

通常认为 p 值小于 0.05 在统计学上是显著的,在这种情况下,应拒绝零假设。p 值大于 0.05 意味着与零假设的偏差在统计学上不显著,并且不拒绝零假设。

0.001 的 P 值意味着什么?

0.001 的 p 值表明,如果被检验的零假设确实为真,那么观察到至少与实际结果一样极端的结果的概率为千分之一。这导致观察者拒绝零假设,因为要么观察到了高度罕见的数据结果,要么零假设不正确。

如何使用 P 值比较假设检验的 2 个不同结果?

如果您有两个不同的结果,一个 p 值为 0.04,另一个 p 值为 0.06,则 p 值为 0.04 的结果将被认为比 p 值为 0.06 的结果在统计上更显著。除了这个简化的例子之外,您可以将 0.04 的 p 值与 0.001 的 p 值进行比较。两者在统计上都是显著的,但 0.001 的例子比 0.04 的例子提供了更有力的证据来反对零假设。

底线

p 值用于衡量观测数据的显著性。当研究人员发现两个变量之间存在明显的关系时,总有可能这种相关性可能是一种巧合。p 值计算有助于确定观察到的关系是否可能由于偶然性而产生。

References

[1] U.S. Census Bureau. “Statistical Quality Standard E1: Analyzing Data.”