引言
我们前面讨论了平衡设计和非平衡设计的统计学效率,这里我们讨论,如何在总样本量固定为 \(N = n_1 + n_2\) 以及 \(\text{Var}(\bar{x}_1 - \bar{x}_2) = \frac{\sigma_1^2}{n_1} + \frac{\sigma_2^2}{n_2}=K\) 的情况下,追求最大的预期有效人数比例。
需要强调的是,我们这里的目标是处于伦理的考虑最小化非响应者总数,而不是追求统计学效率。
问题描述
我们假设,对于某一个高优指标,超过某一阈值 \(c\) 的患者被认为是治疗有效。那么,自然地,对于组别 \(X\) 而言,某一受试者治疗无效的概率为:
\[
P(X<c)=\Phi\left(\frac{c - \mu_X}{\sigma_X}\right)
\]
其中:
\(\Phi(\cdot)\) 是标准正态分布的累积分布函数。
\(\Phi\left(\frac{c - \mu_X}{\sigma_X}\right)\) 和 \(\Phi\left(\frac{c - \mu_Y}{\sigma_Y}\right)\) 分别表示组 \(X\) 和组 \(Y\) 中非响应者的概率。
\(c\) 是响应阈值,\(\mu_X, \mu_Y\) 是组 \(X\) 和 \(Y\) 的均值,\(\sigma_X, \sigma_Y\) 是标准差。
优化问题
我们希望追求最大的预期有效人数比例,即,目标是最小化非响应者总数: \[
\min \left\{ n_1 \Phi\left(\frac{c - \mu_X}{\sigma_X}\right) + n_2 \Phi\left(\frac{c - \mu_Y}{\sigma_Y}\right) \right\},
\]
约束条件为:
\(n_1 + n_2 = N\)(总样本量固定)。
\(\frac{\sigma_X^2}{n_1} + \frac{\sigma_Y^2}{n_2} = K\)(\(Z\) 统计量的分母固定,以保证检验的特定功率)。
公式推导
1. 构造拉格朗日函数
在优化问题中,拉格朗日乘数法用于将有约束的极值问题转化为无约束问题,其核心是:将目标函数与约束条件结合,通过引入乘数(\(\lambda\) 和 \(\mu\))将约束条件融入优化过程。
\[
\mathcal{L} = n_1 \Phi_X + n_2 \Phi_Y + \lambda (N - n_1 - n_2) + \mu \left( K - \frac{\sigma_X^2}{n_1} - \frac{\sigma_Y^2}{n_2} \right)
\]
其中 \(\Phi_X = \Phi\left(\frac{c-\mu_X}{\sigma_X}\right)\), \(\Phi_Y = \Phi\left(\frac{c-\mu_Y}{\sigma_Y}\right)\),\(n_1 \Phi_X + n_2 \Phi_Y\) 是目标函数,\(\lambda (N - n_1 - n_2)\) 是总样本量约束,\(\mu \left( K - \frac{\sigma_X^2}{n_1} - \frac{\sigma_Y^2}{n_2} \right)\) 是方差约束。
2. 求偏导并令其为零
通过对 \(n_1\) 和 \(n_2\) 求偏导并令其为零,可以得到极值条件:
\[
\frac{\partial \mathcal{L}}{\partial n_1} = \Phi_X - \lambda + \mu \frac{\sigma_X^2}{n_1^2} = 0 \quad \Rightarrow \quad \lambda = \Phi_X + \mu \frac{\sigma_X^2}{n_1^2}
\]
\[
\frac{\partial \mathcal{L}}{\partial n_2} = \Phi_Y - \lambda + \mu \frac{\sigma_Y^2}{n_2^2} = 0 \quad \Rightarrow \quad \lambda = \Phi_Y + \mu \frac{\sigma_Y^2}{n_2^2}
\]
通过联立对 \(n_1\) 和 \(n_2\) 的偏导方程,消去 \(\lambda\) 后得到:
\[
\Phi_X + \mu \frac{\sigma_X^2}{n_1^2} = \Phi_Y + \mu \frac{\sigma_Y^2}{n_2^2}
\]
\[
\mu \left( \frac{\sigma_X^2}{n_1^2} - \frac{\sigma_Y^2}{n_2^2} \right) = \Phi_Y - \Phi_X \tag{1}
\]
设 \(g = \frac{n_1}{N}\),\(n_1 = N g\),\(n_2 = N (1 - g)\),则:
\[
\frac{\sigma_X^2}{g} + \frac{\sigma_Y^2}{1-g} = KN \tag{2}
\]
\[
\mu \left( \frac{\sigma_X^2}{(gN)^2} - \frac{\sigma_Y^2}{[(1-g)N]^2} \right) = \Phi_Y - \Phi_X
\]
求解 \((1)\) 和 \((2)\),得到:
\[
\frac{\sigma_X}{g} \sqrt{\Phi_Y} = \frac{\sigma_Y}{1-g} \sqrt{\Phi_X} \quad \Rightarrow \quad g = \frac{\sigma_X \sqrt{\Phi_Y}}{\sigma_X \sqrt{\Phi_Y} + \sigma_Y \sqrt{\Phi_X}}
\]
\[
g = \frac{\sigma_X \sqrt{\Phi\left(\frac{c-\mu_Y}{\sigma_Y}\right)}}{\sigma_X \sqrt{\Phi\left(\frac{c-\mu_Y}{\sigma_Y}\right)} + \sigma_Y \sqrt{\Phi\left(\frac{c-\mu_X}{\sigma_X}\right)}}
\]
3. 关键结论
在 \(\mu \neq 0\) 的情况下,推导过程表明:
最优分配比例 \(g\) 同时依赖于两组的标准差和非响应概率。
若某组的非响应概率更低(即 \(\Phi_X\) 或 \(\Phi_Y\) 更小),应分配更多样本给该组以降低总非响应数。
若某组方差更大(\(\sigma_X\) 或 \(\sigma_Y\) 更大),需权衡其非响应概率与方差对统计功效的影响。
通过 \(g\) 的计算,可以确定最优的样本分配比例,以最小化非响应者总数,成功平衡了伦理与效率的双重目标。在实际中,我们可以先根据一些初始值来进行试验设计,然后通过 \(g\) 的计算再来优化后续试验的样本分配比例。这也是一种反应-适应性设计的思路。
示例
以为 R 代码示例,计算 \(g\) 值:
mu_X <- 2
mu_Y <- 1.5
sigma_X <- 1
sigma_Y <- 1.2
c <- 2
prob_X <- pnorm((c - mu_X) / sigma_X)
prob_Y <- pnorm((c - mu_Y) / sigma_Y)
g <- (sigma_X * sqrt(prob_Y)) / (sigma_X * sqrt(prob_Y) + sigma_Y * sqrt(prob_X))
cat("非响应概率 (X):", prob_X, "\n")
cat("非响应概率 (Y):", prob_Y, "\n")