跳转至

P值

什么是P值?

在统计学中,P值用于表示在原假设成立的情况下,获得等于或大于观察结果的值的可能性。

P值作为拒绝点的替代方案,提供了拒绝原假设所需的最小显著性水平。较小的P值表明对替代假设的证据更为有力。

P值常常被用于提高研究或政府机构报告的可信度。例如,美国人口普查局规定,任何P值大于0.10的分析必须附有说明,说明差异在统计上并不显著。人口普查局还设立了标准,规定了不同出版物可接受的P值范围。

关键要点

  • P值是一种统计度量,用于验证假设与观察数据的关系。
  • P值衡量的是在原假设为真的前提下,获得观察结果的概率。
  • P值越小,观察到的差异的统计显著性越大。
  • P值为0.05或更低通常被视为统计上显著。
  • P值可以作为假设检验中预选置信水平的替代或补充。

理解P值

P值通常通过统计软件或基于特定统计量的假定或已知概率分布的P值表进行计算。样本大小会影响观察数据的可靠性,而利用P值进行假设检验则特别涉及在给定统计量的概率分布下,计算观察值与选定参考值之间的偏差。两个值之间的差异越大,P值就越低。

从数学上看,P值是通过积分计算得出的,可以通过概率分布曲线下的面积来表示所有至少与观察值一样远离参考值的统计值在总面积下的比例。标准差衡量数据点与均值之间的离散程度,在此计算中至关重要。

P值的计算依据所进行的测试类型而异。这三种测试类型描述在概率分布曲线上的位置:左尾测试、右尾测试或双尾测试。在每种情况下,自由度在确定分布形状及P值计算方面发挥着关键作用。

简而言之,两个观察值之间差异越大,差异是由于简单随机机会的可能性就越小,这在P值的数值上得以体现。

P值在假设检验中的应用

P值在假设检验中的应用通过计算出的概率来决定是否有证据拒绝原假设。这一判断高度依赖于测试统计量,该统计量总结了与所检验假设相关的样本信息。原假设,也称为猜想,是关于某个总体(或数据生成过程)的初始声明。替代假设则表明总体参数是否与猜想中所述的总体参数值不同。

在实践中,显著性水平通常事先规定,以确定必须多小的P值才能拒绝原假设。由于不同研究者在探讨问题时使用不同的显著性水平,读者有时会难以比较来自两个不同测试的结果。P值提供了对此问题的解决方案。

重要提示: 即使P值较低,也不一定证明统计显著性,因为观察数据仍可能是随机机会的结果。只有重复实验或研究才能确认某一关系在统计上显著。

例如,假设一项比较两项特定资产回报的研究由不同研究者进行,他们使用相同的数据但设定了不同的显著性水平。这些研究者可能会得出关于这两项资产是否存在差异的相反结论。

如果一位研究者使用了90%的置信水平,而另一位要求95%的置信水平来拒绝原假设,且观察到的两项回报差异的P值为0.08(对应于92%的置信水平),那么第一位研究者认为这两项资产存在统计显著的差异,而第二位研究者则认为回报之间没有显著差异。

为了避免这一问题,研究者可以报告假设检验的P值,让读者自己解读统计显著性。这称为P值假设检验的方法。独立观察者可以注意到P值,并自行判断这是否代表着统计上显著的差异。

P值示例

一位投资者声称其投资组合的表现与标准普尔500指数(S&P 500)的表现相当。为此,投资者进行了一次双尾测试。

原假设指出,该投资组合的回报与所指定时期标准普尔500的回报相当,而替代假设则表示该投资组合的回报与标准普尔500的回报不相等——如果投资者进行单尾测试,替代假设将指出投资组合的回报要么低于,要么高于标准普尔500的回报。

P值假设检验并不一定使用预选置信水平来重设原假设,即回报相当。相反,它提供了一种衡量拒绝原假设所需证据多少的方法。P值越小,对原假设的反驳证据越强。

因此,如果投资者发现P值为0.001,表明有强烈证据反对原假设,投资者可以有信心地得出结论:该投资组合的回报与标准普尔500的回报不相等。

尽管这并未提供投资者决定接受或拒绝原假设的确切阈值,但它具有另一种非常实用的优势。P值假设检验为投资者在选择不同类型的投资或投资组合与基准(如标准普尔500)之间提供了直接比较相对信心的方式。

例如,对于两个投资组合A和B,其表现与标准普尔500的P值分别为0.10和0.01,投资者对P值较低的投资组合B将更有信心地认为其会持续显示出不同的结果。

P值为0.05显著吗?

通常情况下,P值小于0.05被认为具有统计显著性,因此原假设应被拒绝。若P值大于0.05,则说明偏离原假设在统计上并不显著,原假设不被拒绝。

P值为0.001意味着什么?

P值为0.001表示,如果所检验的原假设确实成立,则观察到的结果至少极端的概率为千分之一。这促使观察者拒绝原假设,因为观察到的结果要么非常罕见,要么原假设是错误的。

如何使用P值比较两个不同结果的假设检验?

如果您有两个不同的结果,一个P值为0.04,另一个P值为0.06,则P值为0.04的结果在统计上将被认为比P值为0.06更显著。在这个简化的例子之外,您可以将0.04的P值与0.001的P值进行比较。二者都具有统计显著性,但0.001的例子为反驳原假设提供了更强的证据。

总结

P值用于测量观察数据的显著性。当研究者发现两个变量之间存在明显关系时,始终存在这种相关性可能是巧合的可能性。P值计算有助于确定观察到的关系是否可能是由于随机机会产生的。

参考文献

[1] U.S. Census Bureau. “Statistical Quality Standard E1: Analyzing Data.”