我们经常在科学论文的数据分析部分或一些科普文章引用的数据中看到涉及P值和相关显著性判断的统计报告。非专业读者经常将这些对P值和"显著性"的描述视为迷雾(见下表),其中大部分被跳过,但实际上这些统计数据是论文中最准确,最直接的定性结论。了解P值的含义和意义,有助于我们快速掌握科研论文中第一手研究数据的方向和意义。
科研论文中常见的P值和显著性是什么意思?一文搞懂P值及其计算统计显著性和置信度P值和零假设用一个栗子小结一下如何对待统计学显著性对某项研究的意义?如何计算P值?步骤1:设定零假设和对立假设步骤2:选取α值步骤3:单侧(one-tail)或双侧(two-tail)测试步骤4:确定样本数步骤5:计算标准差步骤6:计算标准误差步骤7:求t分数步骤8:确定自由度步骤9:使用T表查找P值总结 p 值统计报表的示例
P值通常涉及统计显著性的确定,因此我们必须从显著性的概念开始。本文将使用常用文字介绍相关的统计概念,并附上P值计算方法。
没有一个理论(或认知)可以保证它对现实的猜测是100%正确的,这是因为理论总是只是对现实世界真理的一般总结和特征性提取。理论只能无限接近真理,却无法达到真理。人类使用的只是越来越接近真理的理论。
因此,任何声明都有一个可信度问题。通过重复对现实的检验,我们将能够看到一个陈述的可信度,并且不同主张之间存在可信度差异。这就像当一个盲人触摸大象时,每个盲人对大象的形状都会说一些不同的话,如果盲人再碰几次,他们对大象外表的描述就会更接近现实。
了解不同观点的可信度是统计的目的之一。统计中所谓的"重要性"是可信度的指标。
具有统计学意义的结果反映了通过严格测试获得的置信度 - 术语"置信度"(也称为"置信水平"),它表示我们认为结论不会受到随机因素偏差的程度。更具体地说,置信度是我们理论预测的结果出现在指定区间内的概率。
重要性与置信度的内涵相同,但它们以相反的方式表示,并且在应用程序中的描述略有不同:
·为了信心,我们通常会说" ...实验结果落入某个置信区间的可能性有多大......"(概率越大,置信水平越高)
·对于重要性,我们会说,"...我们的理论假设被否定的可能性小于被否定的可能性,我们的假设可以被称为显著或极其显著......"(可能性越小,重要性越高)
也就是说,置信度通常是一个积极的描述(伪假),并且通常需要与置信区间相关联。另一方面,重要性是相反的描述(尽管是真实的),并且通常需要与预设的判断阈值相关联。
科研论文中常见的P值和显著性是什么意思?一文搞懂P值及其计算统计显著性和置信度P值和零假设用一个栗子小结一下如何对待统计学显著性对某项研究的意义?如何计算P值?步骤1:设定零假设和对立假设步骤2:选取α值步骤3:单侧(one-tail)或双侧(two-tail)测试步骤4:确定样本数步骤5:计算标准差步骤6:计算标准误差步骤7:求t分数步骤8:确定自由度步骤9:使用T表查找P值总结 显著性和置信水平之间的关系
统计学使用p值来表示前面提到的"理论假设被拒绝的概率"。科学研究倾向于选择与理论假设相反的假设作为"假对象",即试图证明"这个假设与我的观点相反"不太可能发生,并且用作"目标"的假设在统计上被称为"零假设"(也称为"原始假设", 或"虚无主义假设",通常在英语中为"零假设"),通俗地说:目标被击倒,研究被建立。
因此,P值通常用于描述假设检验中理论假设的有效性,而与理论相反的通常设置为"零假设"。例如,我认为"读者阅读本文需要10分钟以上",而零假设是"......完成本文只需不到 10 分钟的时间。因此,我们只需要证明零发生的可能性相当小,这使我的说法可信。相反,只要证明我的陈述的机会足够高,可以在一定程度上证明我的理论。
然而,从统计学上讲,陈述的可靠性通常是在负零假设中断言的,而不是相反的。因为概率论认为,"小概率事件"几乎不可能在单个测试中发生。因此,只要事实证明零假设是一个小概率事件,就可以肯定相反的假设是合理的。这可能就是统计分析经常使用负零假设来做出置信度确定的原因。
所以我只需要真正调查足够多的读者来实时阅读这篇文章,就可以计算出P值。P 值是一个概率,其值介于 0 和 1 之间,即介于绝对可能和绝对不可能之间。因此,如果P值为5%,置信水平为95%(两者加起来为1),这反映了我的陈述与现实高度相关,因此更可信。
显然,如果零假设("...小于10分钟的概率"非常低,即一个小概率事件,因此相反的假设("......时间大于 10 分钟")。小概率事件几乎不可能在单个测试中发生,因此单个断言E!s理论是完全可信的(但不能说我的理论中的所有断言都是可信的)。
科研论文中常见的P值和显著性是什么意思?一文搞懂P值及其计算统计显著性和置信度P值和零假设用一个栗子小结一下如何对待统计学显著性对某项研究的意义?如何计算P值?步骤1:设定零假设和对立假设步骤2:选取α值步骤3:单侧(one-tail)或双侧(two-tail)测试步骤4:确定样本数步骤5:计算标准差步骤6:计算标准误差步骤7:求t分数步骤8:确定自由度步骤9:使用T表查找P值总结 零假设和相反假设就像在轮盘赌轮盘上猜测球落在黑色和红色网格之间的关系上
P值是一个概率,一个数字,因此它可以用来衡量实验证据的强度,以支持结论,并通过以下方式进行重要的定性分析。确定统计显著性的方法主要有三种:
·如果检验获得的 P 值小于预设的α水平,则检验具有统计显著性。
·如果置信区间不包含零假设的值,则检验结果具有统计显著性。例如,置信区间
·如果 P 值小于 α,则置信区间上没有零假设,因此在统计意义上显著。(这是结合前两点的推论)
注意:α值是人为预设的标准。根据经验实践,α值通常为0.05作为显著性标准,0.001作为最显著性标准,也就是说。
·较小的 P 值(通常≤0.05)表明有力证据表明实验结果是原假设无效,因此原假设可以更可信地被推翻。
·较大的 p 值(> 0.05)不足以证明原假设,这意味着原假设成立的可能性很高。
·非常接近阈值(0.05)的P值被认为是边际的(您的口味有点相信)。
科研论文中常见的P值和显著性是什么意思?一文搞懂P值及其计算统计显著性和置信度P值和零假设用一个栗子小结一下如何对待统计学显著性对某项研究的意义?如何计算P值?步骤1:设定零假设和对立假设步骤2:选取α值步骤3:单侧(one-tail)或双侧(two-tail)测试步骤4:确定样本数步骤5:计算标准差步骤6:计算标准误差步骤7:求t分数步骤8:确定自由度步骤9:使用T表查找P值总结 P 值的图解解释
上图:概率和统计显著性。垂直轴是观测的概率,水平轴是结果的可能值。
非常不可能的观察
观测结果(值) - 观测值(值)
95% 统计显著性阈值 s 95% 统计显著性阈值
观测到的 p 值(统计显著性) - 观测到的 p 值(统计显著性)
例如,我刚刚在"饥饿"上订购了一顿饭,饥饿的估计交货时间为30分钟,但我坚持认为通常不会在30分钟内交货。所以我可以做一个假设测试,因为我不认为"交货时间少于30分钟"的零假设是不正确的,所以我相反的假设是"交货时间大于30分钟"(也就是说,你会迟到,如果你迟到了,你必须支付优惠券,哈哈)。
为了证实我的观点,我每天订购同一家餐厅,并测量每次送货所需的时间。在获得大量样本数据后,我计算了样本的P值,假设P值为0.001(远小于0.05),这意味着我迟到的概率可能是0.001,或者我的判断误差远低于0.05的"统计显著经验阈值"。所以,我基本上可以相信,自动估计饿的时间是错误的,所以饿了每次都应该给我一张优惠券。
但实际上,这只是我的一厢情愿,基本上是不可能的,因为饥饿的公司开发人员并没有那么愚蠢。他们会根据每顿饭的交货时间统计数据不断刷新他们的估计公式,以确保他们的估计<0.05或更低。App收集的大数据确保了送货员的送货时间在大部分时间不会超时(尽管他们的算法可能更复杂,统计结论可能只是其中的一部分)。
科研论文中常见的P值和显著性是什么意思?一文搞懂P值及其计算统计显著性和置信度P值和零假设用一个栗子小结一下如何对待统计学显著性对某项研究的意义?如何计算P值?步骤1:设定零假设和对立假设步骤2:选取α值步骤3:单侧(one-tail)或双侧(two-tail)测试步骤4:确定样本数步骤5:计算标准差步骤6:计算标准误差步骤7:求t分数步骤8:确定自由度步骤9:使用T表查找P值总结 饥饿加班支付政策背后有统计学上显着的支持
置信度降低有一个重要原因 - 采样误差,这是数据失真的常见原因。显然,如果你的研究是基于有缺陷的数据,那么结论肯定是不正确的。
例如,您要调查公众最喜欢的食物。但如果你去麦当劳调查,结果可能是你最喜欢的牛肉汉堡,但如果你去素食餐厅调查,结果却大不相同。这是一个夸大的采样误差问题。但所有采样都会有采样误差,只是误差大小的差异。因此,统计显著性并不一定能保证客观的正确性。这就是为什么我们经常发现似乎具有令人信服的数据的论文的结论被其他类似研究推翻的原因之一。
在科学研究领域,统计显著性往往不能完全断言研究人员的假设是100%正确的,但往往可以告诉研究人员,他的假设是基于可信的事实基础,值得进一步研究。
本节是为有兴趣了解如何计算统计 P 值的读者编写的。如果您只想大致了解 P 值和统计显著性,可以查看其余部分。
计算和确定统计显著性有点复杂,而且在实际使用软件工具时,例如IBM的SPSS或开源Javavi,都是统计分析工具。此外,互联网上还有一些在线计算器,主要是Z检验计算器和T检验计算器,专门用于进行与显著性相关的统计评分计算。
在这里,我将向您展示如何手动计算统计显著性,下面是一个 t 分数,用于获取 P 值:
首先指出哪个是零假设(H0)。在科学研究中,零假设通常被设置为无效,这意味着实验失败,研究人员希望通过实验拒绝这一假设。
一旦确定了零假设,就确定了相反的假设(Ha) - 相反的假设和零假设在逻辑上彼此相反。在科学研究中,相反的假说通常是科学研究需要证明的衡量标准,这意味着实验是成功的或具有进一步的研究意义。
例如,假设我们研究药物对患者的有效性。我们的零假设是:"这种药物对患者根本没有影响。(既没有积极的影响,也没有消极的影响)
但测试药物的有效性通常由"实验组"样本和"对照组"样本之间的差异决定。对照组通常给予"安慰剂",这相当于不服用药物(但对照组的患者不知道他们是否正在服用有效药物)。
如果实验组的结果与对照组的结果没有差异,则药物无效。因此,零假设可以改为"实验组和对照组之间没有区别"。因此,只要我们通过统计分析拒绝这种零假设,我们就可以得出结论,我们支持药物的有效性。
科研论文中常见的P值和显著性是什么意思?一文搞懂P值及其计算统计显著性和置信度P值和零假设用一个栗子小结一下如何对待统计学显著性对某项研究的意义?如何计算P值?步骤1:设定零假设和对立假设步骤2:选取α值步骤3:单侧(one-tail)或双侧(two-tail)测试步骤4:确定样本数步骤5:计算标准差步骤6:计算标准误差步骤7:求t分数步骤8:确定自由度步骤9:使用T表查找P值总结 对照组
我们需要设置一个显著性阈值的水平,即前面提到的α值,这意味着假设在被认为是可信的时可能有效的概率(这可能有点曲折)。
通常α值选择为0.05(即5%)作为显著性的阈值,但不同的实验灵敏度要求不同。在某些研究领域,可以提高重要性的门槛,例如药物测试或精密仪器制造,0.01可能更合适。
由于置信水平为 1-α (%),因此如果α值为 0.05,则满足此阈值的测试结果的置信度为 95%。
科研论文中常见的P值和显著性是什么意思?一文搞懂P值及其计算统计显著性和置信度P值和零假设用一个栗子小结一下如何对待统计学显著性对某项研究的意义?如何计算P值?步骤1:设定零假设和对立假设步骤2:选取α值步骤3:单侧(one-tail)或双侧(two-tail)测试步骤4:确定样本数步骤5:计算标准差步骤6:计算标准误差步骤7:求t分数步骤8:确定自由度步骤9:使用T表查找P值总结 Alpha 值和双侧或单侧测试的符号
(也称为对某些材料进行单面或双面测试)
在获得 P 值之前,您需要确定单侧检验还是双侧检验更合适。
·单侧测试检查一个方向上的两组对象数据之间的关系,例如改善患者病情的药物;
·双侧测试在阳性和阴性方向上进行测试,例如,当药物改善或恶化患者的病情时。
如果您不确定结果将朝哪个方向发展,则可以进行双面测试。
当我们在 t 值表上查询 p 值时,末尾需要单侧或双侧选项。
接下来,确定样本数量是否满足统计要求。
在实践中,这是确定在实验测试之前或之后需要获得多少样本以确保置信度或显著性符合所需显著性标准的先决条件。由于有些样品往往因为在实践中无效而被排除在外,这可能导致样品数量达不到要求,因此实验完成后的数据处理还需要重新验证样品数量以满足下限要求。
为了确定样本大小的下限,我们需要做一个统计功效分析。如果样本量太小,置信度(或显著性)不足,导致假阴性结论,而样本过多会增加统计的实施成本,力度不大。一般来说,统计功效越高,假阴性的可能性就越低。
功效分析由四个主要部分组成:
·效应量,它告诉我们结果在统计组中的影响,如果效果不足,即使标准的显著性也无法解释结果的实用性;
·样本数,它告诉我们样本中有多少观测值;
·显著性级别,即α值;
·统计功效,即我们接受相反假设的概率;
许多实验使用80%的典型疗效(或1-β,β称为假阴性率)进行分析。此值也是人为确定的经验值,可以根据需要进行更改。功效分析让我们知道在指定的置信区间内实现统计显著性所需的样本数,即通过指定β和α值来实现必要的样本数量。
由于统计功效计算相对复杂,因此通常使用工具软件执行。
科研论文中常见的P值和显著性是什么意思?一文搞懂P值及其计算统计显著性和置信度P值和零假设用一个栗子小结一下如何对待统计学显著性对某项研究的意义?如何计算P值?步骤1:设定零假设和对立假设步骤2:选取α值步骤3:单侧(one-tail)或双侧(two-tail)测试步骤4:确定样本数步骤5:计算标准差步骤6:计算标准误差步骤7:求t分数步骤8:确定自由度步骤9:使用T表查找P值总结 α值和β值实际上对应于两种类型的统计误差
上图:两种类型的统计误差。
零假定为 true,但被拒绝,这是第一类错误,或α错误;
原假设为假,但未被否定,这是第二种类型的错误,或β错误;
足够的样本量是为了尽可能避免β误差。
标准差s(有时写为σ,全名是"标准差")让我们知道数据的分散程度(更大,更分散)。这是统计学中最常用的概念,其计算并不复杂。
样本标准偏差公式为:
科研论文中常见的P值和显著性是什么意思?一文搞懂P值及其计算统计显著性和置信度P值和零假设用一个栗子小结一下如何对待统计学显著性对某项研究的意义?如何计算P值?步骤1:设定零假设和对立假设步骤2:选取α值步骤3:单侧(one-tail)或双侧(two-tail)测试步骤4:确定样本数步骤5:计算标准差步骤6:计算标准误差步骤7:求t分数步骤8:确定自由度步骤9:使用T表查找P值总结 在此等式中
·s 是标准偏差
·∑意味着求和
·Xi 是每个单独的数据
·虚线 x 是每组数据的平均值
·n 是总样本量(此处使用 n-1 而不是 n 来减少系统误差,n 用作描述性统计中的标准差;当 n 接近无穷大时,这两个计算的结果更接近)
(注意标准偏差和标准误差的区别)
在上一步中,我们得到了两个标准差,然后我们需要找到两组数据的标准误差。公式如下:
科研论文中常见的P值和显著性是什么意思?一文搞懂P值及其计算统计显著性和置信度P值和零假设用一个栗子小结一下如何对待统计学显著性对某项研究的意义?如何计算P值?步骤1:设定零假设和对立假设步骤2:选取α值步骤3:单侧(one-tail)或双侧(two-tail)测试步骤4:确定样本数步骤5:计算标准差步骤6:计算标准误差步骤7:求t分数步骤8:确定自由度步骤9:使用T表查找P值总结 在公式中:
·SE 是两组样本之间差异的标准误差
·1 是第一组的标准偏差
·n1 是第一组的样本数量
·第二组的标准差为 2
·n2 是第二组的样本数量
t-score是度量估计值(或要测试的数据集)与已知参考值(或另一组参考数据)相对于其标准误差的平均偏差的比率,它告诉我们两组数据是否显着不同。计算 t 分数的公式为
科研论文中常见的P值和显著性是什么意思?一文搞懂P值及其计算统计显著性和置信度P值和零假设用一个栗子小结一下如何对待统计学显著性对某项研究的意义?如何计算P值?步骤1:设定零假设和对立假设步骤2:选取α值步骤3:单侧(one-tail)或双侧(two-tail)测试步骤4:确定样本数步骤5:计算标准差步骤6:计算标准误差步骤7:求t分数步骤8:确定自由度步骤9:使用T表查找P值总结 其中:
·t0 是计算的分数
·两组数据的平均值之差,scriwed x1-x2
·SE 是两组数据的标准误差
自由度 (dF) 是每组变量可以选择用于分析的值数。如果比较两组样本,则应将它们相加并减去两个(实际上,它们应严格描述为减去样本数)。
例如,如果有两组数据,其中一组有 10 个样本,另一组有 20 个样本,则第一组有 9 个自由度,第二组有 19 个自由度,两组总共有 28 个自由度。
因为小样本量的随机检验均值的分布不是正态分布,而是 T 分布。由于 T 分布的计算函数较为复杂,因此 P 值通常通过检查 t 值表获得。
下面是一个 t 值表:
科研论文中常见的P值和显著性是什么意思?一文搞懂P值及其计算统计显著性和置信度P值和零假设用一个栗子小结一下如何对待统计学显著性对某项研究的意义?如何计算P值?步骤1:设定零假设和对立假设步骤2:选取α值步骤3:单侧(one-tail)或双侧(two-tail)测试步骤4:确定样本数步骤5:计算标准差步骤6:计算标准误差步骤7:求t分数步骤8:确定自由度步骤9:使用T表查找P值总结 假设我们的实验使用单侧检验,两组数据中共有 28 个自由度,计算出的 t 值约为 3.5。
1. 我们首先查看最左边的df(自由度)列,找到自由度为28的行;
然后这条线搜索我们的t值,我们可以发现它可能介于左侧两列的值之间(3.408-3.674);
3. 在两列顶部的单尾(单侧)行中查看 0.001 和 0.0005 之间的相应 p 值。
基于这个p值,我们可以判断出我们测试的两组数据之间的差异是显着的。
通过本文了解了P值和统计显著性的含义后,读者可以在以后阅读科学论文时尝试理解涉及统计显著性的数据内容。
对于一些具备数据分析能力但不熟悉统计假设检验分析的读者(包括一些统计应用的开发者),希望这部分读者通过本文了解P值的算法,了解P值的统计思维,这样他们就可以在工作中逐渐尝试理解更多的统计细节(当然, 特定计算或推荐的计算工具)。