样本量和检验效能的估计问题

sample size and power estimation
biostatistics
sample size
power
Author
Published

Tuesday, February 4, 2020

统计分析人员经常会被问到这样一个问题:我这个研究到底需要多少个研究对象呢?

这个问题可以通过检验效能分析或样本量估算来解决,它在实验设计中占有重要地位。检验效能分析可以帮助在给定置信度的情况下,判断检测到给定效应值时所需的样本量;反过来,它也能够在给定置信度水平情况下,计算在某样本量内能检测到给定效应值的概率,如果该概率过低,可以考虑修改或放弃该实验。

由于检验效能分析针对的是假设检验,我们回顾下假设检验的过程。

在统计假设检验中,首先要对总体分布参数作出一个假设(无效假设),然后从总体分布中抽样,通过样本计算所得的统计量来对总体参数进行推断。假定无效假设为真,若计算获得观测样本的统计量或更大统计量的概率(p值)非常小,小于预先设定的阈值(检验的显著性水平),便可以拒绝无效假设,接受备择假设。

科学研究中,越来越强调样本量的估算。确定适当的样本含量可以节约资源,并可防止因为样本含量过少引起的检验效能偏低,出现假阴性错误,这是当前医学研究中值得注意的问题。

样本量的估算方法很多,不同的统计检验方法使用的计算公式也不一样。一般影响样本量的因素有以下7种:

  1. 研究事件的发生率:研究事件预期的发生率越高,所需的样本量越小,反之则越大;

  2. 研究因素的有效率:有效率越高,即实验组和对照组比较数值差异越大,样本量就可以越小,使用小样本就能够达到统计学上的显著性,反之则越大;

  3. 设定假设检验的I类错误概率α,即检验水准或显著性,为假阳性错误出现的概率。α越小,所需的样本量越大,反之则越小。α水平由研究者根据具体情况决定,通常α取0.05或0.01;

  4. 设定假设检验的II类错误概率β,或检验效能1-β。II类错误为假阴性错误,即在特定的α水准下,若总体参数之间确实存在着差别,此时该次实验能发现此差别的概率。检验效能又称把握度,即避免假阴性错误的能力,β越小,检验效能越高,所需的样本量越大,反之就越小。β水平由研究者根据情况决定,通常取β为0.2、0.1或0.05,即1-β=0.8、0.9或0.95,也就是说把握度为80%、90%或95%;

  5. 了解由样本推断总体的一些信息。总体标准差一般未知,可用样本标准差代替;

  6. 处理组间差别的估计,即确定容许误差。容许误差越小,需要的样本量越大;

  7. 采用统计学检验时,当研究结果高于和低于效应指标的界限均有意义时,应该选择双侧检验,所需的样本量就大。当研究结果仅高于或低于效应指标的界限有意义时,则应该选择单侧检验,所需的样本量就小。

在这些影响因素中,确定样本含量最重要的4个因素为I类错误概率、II类错误概率、推断总体的一些信息和容许误差。

研究者放宽显著性水平时(换句话说,使得拒绝无效假设更容易时),检验功效增加。类似地,样本量增加,检验功效增加。

通常来说,研究目标是维持一个可接受的显著性水平,尽量使用较少的样本,然后最大化统计检验的功效,也就是说,最大化发现真实效应的概率,并最小化发现错误效应的概率,同时把研究成本控制在合理的范围内。