引言
复习独立样本 t 检验和配对样本 t 检验的统计量,并证明配对样本 t 检验的统计学效率高于独立样本 t 检验。
统计学效率通常指在相同的显著性水平和样本量下,检验检测真实差异(效应量)的能力(即检验功效 power)更高,或者在达到相同power时所需样本量更小。
两种t检验的定义与适用场景
配对样本t检验:适用于同一组个体在两个不同条件下的测量结果,或配对设计的实验。其核心思想是计算每对观测值的差异 \(D_i = X_i - Y_i\),然后检验这些差异的均值是否为零。
独立样本t检验:适用于两个独立组的均值比较,例如实验组和对照组的测量结果完全独立。
两种检验的基本公式
配对样本t检验
假设有\(n\)对配对观测值\((X_1, Y_1), (X_2, Y_2), \ldots, (X_n, Y_n)\),定义差异\(D_i = X_i - Y_i\)。目标是检验原假设\(H_0: \mu_D = 0\)对备择假设\(H_1: \mu_D \neq 0\)。统计量为:
\[ t = \frac{\bar{D}}{s_D / \sqrt{n}} \]
其中:
\(\bar{D} = \frac{1}{n} \sum_{i=1}^n D_i\) 是差异的样本均值,
\(s_D = \sqrt{\frac{1}{n-1} \sum_{i=1}^n (D_i - \bar{D})^2}\) 是差异的样本标准差,
自由度为\(n - 1\)。
独立样本t检验
假设有两个独立样本,样本1为\(X_1, X_2, \ldots, X_{n_1}\),样本2为\(Y_1, Y_2, \ldots, Y_{n_2}\),均值分别为\(\mu_X\)和\(\mu_Y\)。目标是检验\(H_0: \mu_X = \mu_Y\)对\(H_1: \mu_X \neq \mu_Y\)。统计量为:
\[ t = \frac{\bar{X} - \bar{Y}}{s_p \sqrt{\frac{1}{n_1} + \frac{1}{n_2}}} \]
其中:
\(\bar{X}\) 和 \(\bar{Y}\) 分别是两个样本的均值,
\(s_p^2 = \frac{(n_1 - 1)s_X^2 + (n_2 - 1)s_Y^2}{n_1 + n_2 - 2}\) 是合并方差(假设两组方差相等),
自由度为\(n_1 + n_2 - 2\)。
统计学效率的比较框架
为公平比较两种检验的效率,我们假设:
总观测次数相同。例如,配对样本t检验有\(n\)对(共\(2n\)个观测值),独立样本t检验有两个各有\(n\)个观测值的独立样本(共\(2n\)个观测值)。
配对样本中的\(X_i\)和\(Y_i\)之间存在相关性,相关系数为\(\rho\)(通常\(\rho > 0\),即非负相关性,因为配对设计常用于控制个体差异)。
两组的总体方差均为\(\sigma^2\),效应量(均值差异)为\(\delta\)。
统计学效率的关键在于估计量的方差和检验效能的比较。我们通过计算估计量的方差和非中心参数来证明配对样本t检验的优势。
估计量的方差比较
配对样本t检验
配对差异\(D_i = X_i - Y_i\)的方差为:
\[ \text{Var}(D_i) = \text{Var}(X_i) + \text{Var}(Y_i) - 2 \text{Cov}(X_i, Y_i) \]
假设\(\text{Var}(X_i) = \text{Var}(Y_i) = \sigma^2\),且\(\text{Cov}(X_i, Y_i) = \rho \sigma^2\),则:
\[ \text{Var}(D_i) = 2 \sigma^2 (1 - \rho) \]
差异均值\(\bar{D}\)的方差为:
\[ \text{Var}(\bar{D}) = \frac{\text{Var}(D_i)}{n} = \frac{2 \sigma^2 (1 - \rho)}{n} \]
标准误为:
\[ \text{SE}(\bar{D}) = \sqrt{\frac{2 \sigma^2 (1 - \rho)}{n}} \]
独立样本t检验
对于两个各有\(n\)个观测值的独立样本,\(\bar{X} - \bar{Y}\)的方差为:
\[ \text{Var}(\bar{X} - \bar{Y}) = \text{Var}(\bar{X}) + \text{Var}(\bar(Y)) = \frac{2 \sigma^2}{n} \]
标准误为:
\[ \text{SE}(\bar{X} - \bar{Y}) = \sqrt{\frac{2 \sigma^2}{n}} \]
方差比较
配对样本t检验的方差:\(\frac{2 \sigma^2 (1 - \rho)}{n}\)
独立样本t检验的方差:\(\frac{2 \sigma^2}{n}\)
当\(\rho > 0\)时,\(1 - \rho < 1\),因此:
\[ \frac{2 \sigma^2 (1 - \rho)}{n} < \frac{2 \sigma^2}{n} \]
这表明配对样本t检验的估计量\(\bar{D}\)比独立样本t检验的估计量\(\bar{X} - \bar{Y}\)具有更小的方差。两者的检验统计量分子相同(即效应量),但配对样本t检验的分母(标准误)更小,估计越精确,检验越有可能检测到真实的差异,相应地更容易拒绝原假设,因此具有更高的power,统计学效率更高。
power与非中心参数
power 是检验在备择假设为真时拒绝原假设的概率,power 与统计量的非中心参数相关。非中心参数越大,power 越高。
配对样本t检验
在备择假设\(\mu_D = \delta\)下,非中心参数为:
\[ \lambda_p = \frac{\delta}{\text{SE}(\bar{D})} = \frac{\delta}{\sigma} \sqrt{\frac{n}{2 (1 - \rho)}} \]
独立样本t检验
在备择假设\(\mu_X - \mu_Y = \delta\)下,非中心参数为:
\[ \lambda_i = \frac{\delta}{\text{SE}(\bar{X} - \bar{Y})} = \frac{\delta}{\sigma} \sqrt{\frac{n}{2}} \]
非中心参数比较
比较\(\lambda_p\)和\(\lambda_i\):
\(\lambda_p = \frac{\delta}{\sigma} \sqrt{\frac{n}{2 (1 - \rho)}}\)
\(\lambda_i = \frac{\delta}{\sigma} \sqrt{\frac{n}{2}}\)
当\(\rho > 0\)时,\(\lambda_p > \lambda_i\),表明配对样本t检验在相同条件下具有更高的 power。
结论
通过估计量方差和非中心参数的比较,证明了当配对观测值正相关时,配对样本t检验的统计学效率高于独立样本t检验。这也是为什么在实验设计中,当可以控制个体差异时,优先选择配对设计的原因。