其他分享
首页 > 其他分享> > 注意,这十种常见统计错误,撰写论文时不要犯

注意,这十种常见统计错误,撰写论文时不要犯

作者:互联网

关注“心仪脑”查看更多脑科学知识的分

关键词:干货分享、论文

为了让科学研究的结论更有说服力,本文整理了十种科学文献中出现的一些最常见的统计错误。这些错误源于无效的实验设计、不恰当的分析或有缺陷的推理。本文就作者、审稿人和读者如何识别和解决这些错误提供建议,并希望在未来能够避免这些错误。

1.缺乏足够的控制条件/控制组(Absence of an adequate control condition/group)

问题:

为了评估干预措施的效果,在多个时间点测量结果是一种普遍的科学方法。例如,当考察训练的效果时,通常会探讨行为或生理指标的变化。然而,由于研究的其他因素本身与操作(如训练)没有直接关系,结果测量也可能会发生变化。在没有干预的情况下重复同样的任务可能会导致干预前后测量结果的变化,例如,由于参与者或实验者仅仅是习惯了实验设置,或由于与时间有关的其他变化。因此,对于任何关注一段时间内实验操作对变量的影响的研究,比较这种实验操作和控制操作的效果是至关重要的。

有时,控制组或控制条件是包括在实验中的,但由于没有包含可影响追踪变量的关键因素,这种控制组/条件经常会设计或执行不当。例如,控制组通常不接受“假”干预,或实验者对预期的干预结果并不是未知的,即存在主试效应。其他常见的偏差可能是由于控制组采用不同的基线测量,这可能导致虚假的交互。同样重要的是,控制组和实验组要同时进行抽样,并进行随机分配,以最小化任何偏差。在理想的情况下,控制操作应该在设计和统计方面与实验操作相同,只是在操作的具体刺激维度或变量上有所不同。在这样做的过程中,研究人员应确保操作对追踪变量的影响大于不受预期操作直接驱动的随时间变化的影响。

如何检测:

结论是在单组数据的基础上得出的,没有足够的控制条件。控制条件/组不考虑操作所固有的任务关键特性。

给研究者的解答:

如果实验设计不允许将时间的影响从干预的影响中分离出来,那么关于干预的影响的结论应该是试验性的。

2.未经比较的分析(Interpreting comparisons between two effects without directly comparing them)

问题:

研究人员经常根据干预的影响得出结论(例如,干预前vs干预后两变量间的差异或相关),他们注意到干预在实验条件或组中产生了显著的影响,而相应的影响在控制条件或组中并不显著。基于这两种不同的测试结果,研究者有时会提出实验条件/组的影响大于控制条件的影响。这种错误推理很常见,但也是不正确的。例如,如图1A所示,测量分为两组,每组均接受X和Y两个变量。在统计意义上可能会有不同的结果:A组两个变量之间的相关系数可能有统计学意义(即p ≤ 0.05),而B组类似的相关系数可能没有统计学意义。即使两个变量之间的关系对于两组来说几乎相同,这种情况也可能发生(图1A),所以人们不应该推断一个相关大于另一个。

在评估两组干预措施的效果时也会出现类似的问题:干预措施可能在一组中产生显著效果,但在另一组中没有(图1B)。然而,这并不意味着干预的效果在两组之间是不同的;事实上,在这个案例中,两组没有明显的差异。我们只能通过对干预和控制干预之间的直接统计比较得出结论,干预的效果不同于控制干预的效果。因此,与其执行两个独立的测试,还不如使用一个统计测试来比较两个效应。

图1未经比较的分析

如何检测:

当在没有对两种效应进行统计比较的情况下得出关于两种效应之间差异的结论时,就会出现这个问题。在任何研究人员未进行必要的统计分析而进行推断的情况下,都可能出现此问题。

给研究者的解答:

当研究人员想要对各组进行对比时,应该直接进行比较。两组的相关性可用蒙特卡罗模拟(Monte Carlo simulations)进行比较。对于组比较,方差分析可能是合适的。尽管非参数统计提供了一些工具,但这些工具需要更多的思考和定制。

3.扩大分析单位(Inflating the units of analysis)

问题:

实验单位是可以随机独立分配的最小观测值,即可以自由变化的独立值的个数。在经典统计学中,这个单位将反映自由度(df):例如,在推断群体结果时,实验单位是被测试的对象的数量,而不是在每个对象中进行的观察的数量。但不幸的是,研究人员倾向于混淆这些措施,这就导致一些概念和实际上的问题。从概念上讲,如果没有明确且适当的单位去评估为现象服务的变异,那么统计推断是有缺陷的。从实际上来说,这导致了实验单位的虚假数量(例如,对所有被试的观察值数量通常大于被试的数量)。当数值增大时,判断统计显著性的临界统计阈值减小,如果存在真正的效应(统计能力的增加),则更容易观察到显著性结果。

为了说明这一问题,我们可以讨论一项简单的由十个被试组成的前后纵向干预研究,在该研究中,研究人员使用简单的回归分析来评估他们的主要测量指标和临床状况之间是否存在相关性。分析单位应该是数据点的数量(每名被试1个,共10个),df = 8。当自由度为8时,实现显著性的临界R值为0.63(alpha水平为 .05),这意味着任何高于临界值的相关都是显著的。如果研究者将被试前后的测量结合起来,最终将得到df = 18,临界R值现在是0.44,使其更容易观察到统计上显著的效果,这显然是不合理的。

如何检测:

审稿人应该考虑适当的分析单位。如果一项研究的目的是理解群体效应,那么分析单位应该反映被试之间的差异,而不是被试内部的差异。

给研究者的解答:

也许这个问题的最佳解决方案是使用混合效应线性模型,在这种模型中,研究人员可以将被试内变异定义为固定效应,而被试间变异则定义为随机效应。该方法允许在不违反独立性假设的情况下将所有数据放入模型中。然而,它很容易被误用,需要高级的统计理解,因此在应用和解释时应谨慎。对于一个简单的回归分析,研究人员有几个可用的解决方案来解决这个问题,其中最简单的是分别计算每个观测值的相关性(例如,前,后),并根据现有的df解释R值。研究人员还可以平均观察值,或分别计算前后的相关性,然后平均得到的R值(在应用R分布的标准化之后,如R - Z转换),并相应地解释它们。

4.伪相关(Spurious correlations)

问题:

相关性是科学研究中评估两个变量之间关联程度的重要工具。然而,参数的使用,如皮尔逊相关系数,依赖于假设,如果违反这些假设可能会导致伪相关。当两个变量中的一个出现一个或几个异常值时,最常出现伪相关。正如图2的第一行所示,远离分布的其他部分的一个值会使相关系数膨胀。集群也可能产生虚假的相关,例如,来自两组的数据在两组变量不同时被合并在一起(如图2第二行所示)。

值得注意的是,一个离群值可能很好地提供了一个真实的观察结果,这个观察结果遵循你试图发现的现象的规律,换句话说,观察结果本身并不一定是虚假的。因此,删除“极端”数据点也应该非常谨慎。但是,如果这种真实的观察结果有违反统计检验假设的风险,那么它就会成为虚假事实,因此需要一种不同的统计工具。

图2伪相关:单个异常值和子群对皮尔逊相关系数的影响

如何检测:

审稿人应该特别注意报告的相关性不伴有散点,并考虑当数据点被丢弃时,是否提供了充分的理由。此外,如果将数据汇总在一起,审稿人需要确保考虑到组间或条件间的差异(参见上面的“扩大分析单位”)。

给研究者的解答:

在大多数情况下,稳健的相关方法(例如,bootstrapping,data winsorizing,skipped correlations)应该是首选,因为它们对异常值不那么敏感。当使用参数统计时,应该对数据进行筛选,以确定是否违反关键假设,例如数据点的独立性,以及是否存在离群值。

5.使用小样本(Use of small samples)

问题:

当样本量较小时,只能检测到较大的效应,因此对真实效应大小的估计存在很大的不确定性,导致对实际效应大小的估计过高。在使用显著性阈值alpha = 0.05的频率统计中,5%的统计检验将在没有实际效应的情况下产生显著结果。然而,研究人员更可能认为高系数(如r >0.5)的相关性是稳健的,而不是适度的相关性(如r =0.2)。在较小的样本容量下,这些假阳性的效应量就会很大,从而产生显著性谬误:“如果在较小的样本中,效应量那么大,那么它就只能是真的”。关键是,相关性越大并不是两个变量之间的关系越强的结果,这只是因为在样本容量较小的情况下,实际相关系数总是会被高估。例如,当对n = 15的两个不相关变量进行抽样时,模拟的假正相关大致在|0.5-0.75|之间,而当对n = 100同样的不相关变量进行抽样时,产生的假正相关在|0.2-0.25|之间。

对于给定的效应大小(例如,两组之间的差异),用更大的样本量检测效应的机会更大(这种可能性被称为统计功效)。因此,使用大样本,可以降低在实际存在影响时无法检测到效应的可能性。

与小样本量相关的另一个问题是,样本的分布更有可能偏离正态,而有限的样本量往往无法严格检验正态假设。在回归分析中,偏态分布可能会产生极端的离群值,从而导致虚假的显著相关。

如何检测:

审稿人应严格审查论文中使用的样本量,并判断样本量是否足够。基于有限数量的被试声明应该被特别标记。

给研究者的解答:

研究人员应该提供证据,证明他们已经有足够的功效来检测效应,例如执行一个先验的统计功效分析,或执行一个研究的复制。功效计算的挑战在于,这些应该基于来自独立数据集的效应大小的先验计算,而这些很难在审稿中评估。贝叶斯统计提供了一个机会来决定确认事后检验效应的功效。在样本量在可能天生有限的情况下(例如,用罕见的临床人群或非人灵长类动物进行的研究),应努力提供重复性(在病例内和病例间),并包括足够的对照(例如,建立置信区间)。

6.循环分析(Circular analysis)

问题:

循环分析就是从已经整理分析过的数据中再进行一次分析。循环分析可以采用多种形状和形式,但它本质上与回收相同的数据有关,首先对测试变量进行表征,然后从它们中做出统计推断。最常见的做法就是分析过后去除离群值,再分析一次。

例如,让我们考虑一项针对特定操作的神经元群体放电率的研究。当对整个人群进行比较时,在前后操作之间没有发现显著差异。然而,研究人员观察到,一些神经元对这种操作的反应是提高了它们的放电率,而另一些神经元对这种操作的反应则有所下降。因此,他们根据基线时观察到的活动水平将数据分组,将被试分成若干小组。结果显示一个显著的交互效应——那些最初产生低反应的神经元反应增加,而那些最初表现出相对增加活动的神经元在操作后表现出减少的活动。然而,这种显著的相互作用是扭曲的选择标准和统计假象(回归平均值、下限/上限效应)组合的结果。

在原假设下,当结果在统计上独立于选择标准时,选择性分析是完全合理的。然而,循环分析利用噪声(任何经验数据固有的)来夸大统计结果,导致扭曲和无效的统计推断。

如何检测:

循环分析以许多不同的形式表现出来,但原则上,当统计检验措施偏向于支持假设的选择标准时,就会发生循环分析。在某些情况下,这是非常清楚的,例如,分析是基于显示兴趣效应或内在相关效应的数据。在其他情况下,分析可能会很复杂,并且需要对选择和分析步骤中的相互依赖关系有更细致的理解。

给研究者的解答:

要避免循环分析必须先制定分析标准后进行分析,或永远使用新的一组数据。如果合适的话,审稿人可以要求研究者运行一个模拟来证明兴趣结果与噪声分布和选择标准无关。

7.P值黑客(Flexibility of analysis: p-hacking)

问题:

在灵活运用数据分析可以增加获得显著p值的概率,例如切换结果参数、添加协变量、事后异常值或被试排除。这是因为规范统计依赖于概率,因此运行的测试越多,就越有可能遇到假阳性结果。因此,在给定的数据集中观察一个显著的值并不一定是复杂的,人们总是可以为任何显著的影响想出一个合理的解释,特别是在没有具体预测的情况下。然而,一个人的分析过程中变化越多,观察到的效应不真实的可能性就越大。当同一个社区报告相同的结果变量,但在论文中以不同的方式计算这个变量的值时,数据分析的灵活性尤其明显

这个问题可以通过使用标准化的分析方法来预防。但是,防止P值黑客的最好方法也许是对不确定或不显著的结果表现出一定的容忍。换句话说,如果实验设计、执行和分析都很好,审稿人就不应该因为研究人员的数据而“惩罚”他们。

如何检测:

分析的灵活性很难检测,因为研究人员很少披露所有必要的信息。然而,审稿人可以估计是否所有的分析选择都是合理的,是否在以前的研究中使用了相同的分析计划,研究人员是否提出了一个有问题的新变量,或者他们是否收集了大量的测量,但只报告了几个重要的。

给研究者的解答:

研究人员在报告结果时应该透明,如果以透明的方式报告和解释探索性分析,特别是当它们作为使用预先指定的分析的复制的基础时,那么使用灵活的数据分析的探索性分析是很好的。这样的分析可以作为进一步研究的有价值的理由,但不能成为强有力结论的基础。

8.多重比较未修正(Failing to correct for multiple comparisons)

问题:

当研究者在探索任务效应时,他们通常会探索多个任务条件对多个变量(行为结果、问卷项目等)的影响,有时会有一个未确定的先验假设。这种实践被称为探索性分析,与验证性分析相反,后者的定义更具限制性。当使用频率统计时,在探索性分析中进行多重比较可以对重要发现的解释产生深远的影响。在任何涉及两个以上条件(或两组比较)的实验设计中,探索性分析将涉及多次比较,并将增加检测到效应的概率,即使不存在这种效应(假阳性,Ⅰ型错误)。在这种情况下,因子数目越大,可执行的测试数目就越大。结果,观察到假阳性的概率增加了(family-wise error rate)。例如,在2×3×3 实验设计发现至少一个显著的主效应或交互效应的概率是30%,即使没有效应。

当进行多个独立的比较时(如神经成像分析、多个记录的细胞或脑电图),这个问题尤为突出。在这种情况下,研究人员正在技术上对每个体素/单元格/时间点进行统计测试,从而增加了检测假阳性结果的可能性,因为设计中包含了大量的测量方法。

如何检测:

多重比较未修正可以通过处理所测自变量的数量和执行的分析数量来检测。如果这些变量中只有一个与因变量相关,那么其他变量很可能已经被包括进来,以增加获得显著结果的机会。因此,当对大量的变量进行探索性分析时,在没有明确的理由的情况下,对研究人员来说,解释经过多重比较校正后未能保留下来的结果是完全不可接受的。即使研究人员提供了一个粗略的预测(例如,该效应应该在一个特定的大脑区域或在一个近似的延迟时间内观察到),如果这个预测可以通过多次独立的比较来验证,它就需要对多重比较进行校正。

给研究者的解答:

探索性测试可能是绝对合适的,但应该被承认。研究人员应公开所有测量的变量,并适当实施多重比较程序。请记住,有许多方法可以修正多重比较,有些方法比其他方法更容易被接受,因此仅仅存在某种形式的修正可能是不够的。

9.过度诠释非显著结果(Over-interpreting non-significant results)

问题:

当使用频率统计时,科学家应用一个统计阈值(通常alpha = .05)来判定统计意义,该阈值也不是一成不变的。当结果不显著时对其进行错误解读是有问题的,但这种问题也很常见。简单来说,“效应不显著”字面上可能意味着不同的东西——一个真正的无效结果,一个功效不足的真实效果,或者一个模糊的效果。因此,如果研究人员希望将一个不显著的结果解释为反对假设的证据,他们需要证明这个证据是有意义的,而单凭这个值本身是不够的。这种混淆也意味着,有时研究人员可能会忽略一个不满足p≤0.05阈值的结果,假设它是无意义的,而实际上它提供了足够的证据反驳假设,或至少需要进一步关注的初步证据。

如何检测:

研究人员可能会解释或描述一个不重要的值,表明该效应不存在。这个错误非常常见,并应该突出强调该问题。

给研究者的解答:

关键的第一步是报告效应大小和p值,以便提供关于效应大小的信息,这对未来的元分析也很重要。如果可能的话,研究人员应该考虑使用能够区分不充分(或模糊)证据和支持零假设的证据的统计方法。或者,研究人员可能已经预先确定了他们是否有足够的统计能力来确定期望的效果,或确定这个先验效果的置信区间是否包含无效。否则,研究人员不应过度解释不显著的结果,或只描述它们为不显著。

10.错把相关当因果(Correlation and Causation)

问题:

这可能是解释统计结果时最古老和最常见的错误。在科学中,相关性经常被用来探索两个变量之间的关系。当发现两个变量之间存在显著的相关性时,人们往往倾向于认为其中一个导致了另一个。然而,这是不正确的。仅仅因为两个变量的可变性看起来是线性的,并不一定意味着它们之间有因果关系,即使这种关联是可信的。例如,在不同国家,每年的巧克力消费量和诺贝尔奖获得者的数量之间存在显著的相关性(r(20) = .79; p < 0.001),这导致了(错误的)一个结论:巧克力摄入量为诺贝尔奖获得者的成长提供了营养基础。相关性本身不能作为因果关系的证据。相关事件可能反映直接或反向的因果关系,但也可能是由于(未知的)共同原因,或它们可能是简单巧合的结果。

如何检测:

当研究人员报告两个或多个变量之间的关联,并使用因果语言时,他们很可能会混淆相关性和因果关系。研究人员应该只在一个变量被精确操纵时才可使用因果语言,即使这样,他们也应该小心第三个变量或混淆因素的作用。

给研究者的解答:

如果可能,研究人员应该尝试探索与第三个变量的关系,以进一步支持他们的解释,例如使用分层模型或中介分析,通过测试竞争模型或直接操纵随机对照试验中感兴趣的变量。否则,当证据是相关时,应避免使用因果语言。

全文完结,整理不易,看不完记得收藏,最后希望点赞支持一下!

了解更多,请关注“心仪脑”公众号!

标签:撰写论文,分析,变量,结果,研究,十种,效应,要犯,统计
来源: https://blog.csdn.net/psybrain/article/details/122458239