优化有效人数比例

Optimizing the Number of Responders
RCT
Statistics
Methodology
allocation
optimization
Author
Published

Monday, March 10, 2025

引言

我们前面讨论了平衡设计和非平衡设计的统计学效率,这里我们讨论,如何在总样本量固定为 \(N = n_1 + n_2\) 以及 \(\text{Var}(\bar{x}_1 - \bar{x}_2) = \frac{\sigma_1^2}{n_1} + \frac{\sigma_2^2}{n_2}=K\) 的情况下,追求最大的预期有效人数比例。

需要强调的是,我们这里的目标是处于伦理的考虑最小化非响应者总数,而不是追求统计学效率。

问题描述

我们假设,对于某一个高优指标,超过某一阈值 \(c\) 的患者被认为是治疗有效。那么,自然地,对于组别 \(X\) 而言,某一受试者治疗无效的概率为:

\[ P(X<c)=\Phi\left(\frac{c - \mu_X}{\sigma_X}\right) \]

其中:

  • \(\Phi(\cdot)\) 是标准正态分布的累积分布函数。

  • \(\Phi\left(\frac{c - \mu_X}{\sigma_X}\right)\)\(\Phi\left(\frac{c - \mu_Y}{\sigma_Y}\right)\) 分别表示组 \(X\) 和组 \(Y\) 中非响应者的概率。

  • \(c\) 是响应阈值,\(\mu_X, \mu_Y\) 是组 \(X\)\(Y\) 的均值,\(\sigma_X, \sigma_Y\) 是标准差。

优化问题

我们希望追求最大的预期有效人数比例,即,目标是最小化非响应者总数: \[ \min \left\{ n_1 \Phi\left(\frac{c - \mu_X}{\sigma_X}\right) + n_2 \Phi\left(\frac{c - \mu_Y}{\sigma_Y}\right) \right\}, \]

约束条件为:

  1. \(n_1 + n_2 = N\)(总样本量固定)。

  2. \(\frac{\sigma_X^2}{n_1} + \frac{\sigma_Y^2}{n_2} = K\)\(Z\) 统计量的分母固定,以保证检验的特定功率)。

公式推导

1. 构造拉格朗日函数

在优化问题中,拉格朗日乘数法用于将有约束的极值问题转化为无约束问题,其核心是:将目标函数与约束条件结合,通过引入乘数(\(\lambda\)\(\mu\))将约束条件融入优化过程。

\[ \mathcal{L} = n_1 \Phi_X + n_2 \Phi_Y + \lambda (N - n_1 - n_2) + \mu \left( K - \frac{\sigma_X^2}{n_1} - \frac{\sigma_Y^2}{n_2} \right) \]

其中 \(\Phi_X = \Phi\left(\frac{c-\mu_X}{\sigma_X}\right)\), \(\Phi_Y = \Phi\left(\frac{c-\mu_Y}{\sigma_Y}\right)\)\(n_1 \Phi_X + n_2 \Phi_Y\) 是目标函数,\(\lambda (N - n_1 - n_2)\) 是总样本量约束,\(\mu \left( K - \frac{\sigma_X^2}{n_1} - \frac{\sigma_Y^2}{n_2} \right)\) 是方差约束。

2. 求偏导并令其为零

通过对 \(n_1\)\(n_2\) 求偏导并令其为零,可以得到极值条件:

\[ \frac{\partial \mathcal{L}}{\partial n_1} = \Phi_X - \lambda + \mu \frac{\sigma_X^2}{n_1^2} = 0 \quad \Rightarrow \quad \lambda = \Phi_X + \mu \frac{\sigma_X^2}{n_1^2} \]

\[ \frac{\partial \mathcal{L}}{\partial n_2} = \Phi_Y - \lambda + \mu \frac{\sigma_Y^2}{n_2^2} = 0 \quad \Rightarrow \quad \lambda = \Phi_Y + \mu \frac{\sigma_Y^2}{n_2^2} \]

通过联立对 \(n_1\)\(n_2\) 的偏导方程,消去 \(\lambda\) 后得到:

\[ \Phi_X + \mu \frac{\sigma_X^2}{n_1^2} = \Phi_Y + \mu \frac{\sigma_Y^2}{n_2^2} \]

\[ \mu \left( \frac{\sigma_X^2}{n_1^2} - \frac{\sigma_Y^2}{n_2^2} \right) = \Phi_Y - \Phi_X \tag{1} \]

\(g = \frac{n_1}{N}\)\(n_1 = N g\)\(n_2 = N (1 - g)\),则:

\[ \frac{\sigma_X^2}{g} + \frac{\sigma_Y^2}{1-g} = KN \tag{2} \]

\[ \mu \left( \frac{\sigma_X^2}{(gN)^2} - \frac{\sigma_Y^2}{[(1-g)N]^2} \right) = \Phi_Y - \Phi_X \]

求解 \((1)\)\((2)\),得到:

\[ \frac{\sigma_X}{g} \sqrt{\Phi_Y} = \frac{\sigma_Y}{1-g} \sqrt{\Phi_X} \quad \Rightarrow \quad g = \frac{\sigma_X \sqrt{\Phi_Y}}{\sigma_X \sqrt{\Phi_Y} + \sigma_Y \sqrt{\Phi_X}} \]

\[ g = \frac{\sigma_X \sqrt{\Phi\left(\frac{c-\mu_Y}{\sigma_Y}\right)}}{\sigma_X \sqrt{\Phi\left(\frac{c-\mu_Y}{\sigma_Y}\right)} + \sigma_Y \sqrt{\Phi\left(\frac{c-\mu_X}{\sigma_X}\right)}} \]

3. 关键结论

\(\mu \neq 0\) 的情况下,推导过程表明:

  • 最优分配比例 \(g\) 同时依赖于两组的标准差和非响应概率。

  • 若某组的非响应概率更低(即 \(\Phi_X\)\(\Phi_Y\) 更小),应分配更多样本给该组以降低总非响应数。

  • 若某组方差更大(\(\sigma_X\)\(\sigma_Y\) 更大),需权衡其非响应概率与方差对统计功效的影响。

通过 \(g\) 的计算,可以确定最优的样本分配比例,以最小化非响应者总数,成功平衡了伦理与效率的双重目标。在实际中,我们可以先根据一些初始值来进行试验设计,然后通过 \(g\) 的计算再来优化后续试验的样本分配比例。这也是一种反应-适应性设计的思路。

示例

以为 R 代码示例,计算 \(g\) 值:

mu_X <- 2    
mu_Y <- 1.5 
sigma_X <- 1 
sigma_Y <- 1.2 
c <- 2      

prob_X <- pnorm((c - mu_X) / sigma_X)
prob_Y <- pnorm((c - mu_Y) / sigma_Y)
g <- (sigma_X * sqrt(prob_Y)) / (sigma_X * sqrt(prob_Y) + sigma_Y * sqrt(prob_X))

cat("非响应概率 (X):", prob_X, "\n")
非响应概率 (X): 0.5 
cat("非响应概率 (Y):", prob_Y, "\n")
非响应概率 (Y): 0.6615389 
cat("最优分配比例 g =", round(g, 4), "\n")
最优分配比例 g = 0.4894