优化有效人数比例 | Zhen Lu

引言

我们前面讨论了平衡设计和非平衡设计的统计学效率，这里我们讨论，如何在总样本量固定为 $N = n_1 + n_2$ 以及 $\text{Var}(\bar{x}_1 - \bar{x}_2) = \frac{\sigma_1^2}{n_1} + \frac{\sigma_2^2}{n_2}=K$ 的情况下，追求最大的预期有效人数比例。

需要强调的是，我们这里的目标是处于伦理的考虑最小化非响应者总数，而不是追求统计学效率。

问题描述

我们假设，对于某一个高优指标，超过某一阈值 $c$ 的患者被认为是治疗有效。那么，自然地，对于组别 $X$ 而言，某一受试者治疗无效的概率为：

\[ P(X<c)=\Phi\left(\frac{c - \mu_X}{\sigma_X}\right) \]

其中：

$\Phi(\cdot)$ 是标准正态分布的累积分布函数。
$\Phi\left(\frac{c - \mu_X}{\sigma_X}\right)$ 和 $\Phi\left(\frac{c - \mu_Y}{\sigma_Y}\right)$ 分别表示组 $X$ 和组 $Y$ 中非响应者的概率。
$c$ 是响应阈值，$\mu_X, \mu_Y$ 是组 $X$ 和 $Y$ 的均值，$\sigma_X, \sigma_Y$ 是标准差。

优化问题

我们希望追求最大的预期有效人数比例，即，目标是最小化非响应者总数： \[ \min \left\{ n_1 \Phi\left(\frac{c - \mu_X}{\sigma_X}\right) + n_2 \Phi\left(\frac{c - \mu_Y}{\sigma_Y}\right) \right\}, \]

约束条件为：

$n_1 + n_2 = N$（总样本量固定）。
$\frac{\sigma_X^2}{n_1} + \frac{\sigma_Y^2}{n_2} = K$（$Z$ 统计量的分母固定，以保证检验的特定功率）。

公式推导

1. 构造拉格朗日函数

在优化问题中，拉格朗日乘数法用于将有约束的极值问题转化为无约束问题，其核心是：将目标函数与约束条件结合，通过引入乘数（$\lambda$ 和 $\mu$）将约束条件融入优化过程。

\[ \mathcal{L} = n_1 \Phi_X + n_2 \Phi_Y + \lambda (N - n_1 - n_2) + \mu \left( K - \frac{\sigma_X^2}{n_1} - \frac{\sigma_Y^2}{n_2} \right) \]

其中 $\Phi_X = \Phi\left(\frac{c-\mu_X}{\sigma_X}\right)$, $\Phi_Y = \Phi\left(\frac{c-\mu_Y}{\sigma_Y}\right)$，$n_1 \Phi_X + n_2 \Phi_Y$ 是目标函数，$\lambda (N - n_1 - n_2)$ 是总样本量约束，$\mu \left( K - \frac{\sigma_X^2}{n_1} - \frac{\sigma_Y^2}{n_2} \right)$ 是方差约束。

2. 求偏导并令其为零

通过对 $n_1$ 和 $n_2$ 求偏导并令其为零，可以得到极值条件：

\[ \frac{\partial \mathcal{L}}{\partial n_1} = \Phi_X - \lambda + \mu \frac{\sigma_X^2}{n_1^2} = 0 \quad \Rightarrow \quad \lambda = \Phi_X + \mu \frac{\sigma_X^2}{n_1^2} \]

\[ \frac{\partial \mathcal{L}}{\partial n_2} = \Phi_Y - \lambda + \mu \frac{\sigma_Y^2}{n_2^2} = 0 \quad \Rightarrow \quad \lambda = \Phi_Y + \mu \frac{\sigma_Y^2}{n_2^2} \]

通过联立对 $n_1$ 和 $n_2$ 的偏导方程，消去 $\lambda$ 后得到：

\[ \Phi_X + \mu \frac{\sigma_X^2}{n_1^2} = \Phi_Y + \mu \frac{\sigma_Y^2}{n_2^2} \]

\[ \mu \left( \frac{\sigma_X^2}{n_1^2} - \frac{\sigma_Y^2}{n_2^2} \right) = \Phi_Y - \Phi_X \tag{1} \]

设 $g = \frac{n_1}{N}$，$n_1 = N g$，$n_2 = N (1 - g)$，则：

\[ \frac{\sigma_X^2}{g} + \frac{\sigma_Y^2}{1-g} = KN \tag{2} \]

\[ \mu \left( \frac{\sigma_X^2}{(gN)^2} - \frac{\sigma_Y^2}{[(1-g)N]^2} \right) = \Phi_Y - \Phi_X \]

求解 $(1)$ 和 $(2)$，得到：

\[ \frac{\sigma_X}{g} \sqrt{\Phi_Y} = \frac{\sigma_Y}{1-g} \sqrt{\Phi_X} \quad \Rightarrow \quad g = \frac{\sigma_X \sqrt{\Phi_Y}}{\sigma_X \sqrt{\Phi_Y} + \sigma_Y \sqrt{\Phi_X}} \]

\[ g = \frac{\sigma_X \sqrt{\Phi\left(\frac{c-\mu_Y}{\sigma_Y}\right)}}{\sigma_X \sqrt{\Phi\left(\frac{c-\mu_Y}{\sigma_Y}\right)} + \sigma_Y \sqrt{\Phi\left(\frac{c-\mu_X}{\sigma_X}\right)}} \]

3. 关键结论

在 $\mu \neq 0$ 的情况下，推导过程表明：

最优分配比例 $g$ 同时依赖于两组的标准差和非响应概率。
若某组的非响应概率更低（即 $\Phi_X$ 或 $\Phi_Y$ 更小），应分配更多样本给该组以降低总非响应数。
若某组方差更大（$\sigma_X$ 或 $\sigma_Y$ 更大），需权衡其非响应概率与方差对统计功效的影响。

通过 $g$ 的计算，可以确定最优的样本分配比例，以最小化非响应者总数，成功平衡了伦理与效率的双重目标。在实际中，我们可以先根据一些初始值来进行试验设计，然后通过 $g$ 的计算再来优化后续试验的样本分配比例。这也是一种反应-适应性设计的思路。

示例

以为 R 代码示例，计算 $g$ 值：

mu_X <- 2    
mu_Y <- 1.5 
sigma_X <- 1 
sigma_Y <- 1.2 
c <- 2      

prob_X <- pnorm((c - mu_X) / sigma_X)
prob_Y <- pnorm((c - mu_Y) / sigma_Y)
g <- (sigma_X * sqrt(prob_Y)) / (sigma_X * sqrt(prob_Y) + sigma_Y * sqrt(prob_X))

cat("非响应概率 (X):", prob_X, "\n")

非响应概率 (X): 0.5

cat("非响应概率 (Y):", prob_Y, "\n")

非响应概率 (Y): 0.6615389

cat("最优分配比例 g =", round(g, 4), "\n")

最优分配比例 g = 0.4894

--- title: "优化有效人数比例" date: 2025-03-10 description: "Optimizing the Number of Responders" image: "https://cdn.jsdelivr.net/gh/Leslie-Lu/WeChatOfficialAccount/img_2025/20250310153136.png" categories: - RCT - Statistics - Methodology - allocation - optimization format: html: shift-heading-level-by: 1 include-in-header: - text: | <style type="text/css"> hr.dinkus { width: 50px; margin: 2em auto 2em; border-top: 5px dotted #454545; } div.column-margin+hr.dinkus { margin: 1em auto 2em; } </style> --- ## 引言我们前面讨论了平衡设计和非平衡设计的统计学效率，这里我们讨论，如何在总样本量固定为 $N = n_1 + n_2$ 以及 $\text{Var}(\bar{x}_1 - \bar{x}_2) = \frac{\sigma_1^2}{n_1} + \frac{\sigma_2^2}{n_2}=K$ 的情况下，追求最大的预期有效人数比例。需要强调的是，我们这里的目标是处于伦理的考虑最小化非响应者总数，而不是追求统计学效率。 ## 问题描述我们假设，对于某一个高优指标，超过某一阈值 $c$ 的患者被认为是治疗有效。那么，自然地，对于组别 $X$ 而言，某一受试者治疗无效的概率为： $$ P(X<c)=\Phi\left(\frac{c - \mu_X}{\sigma_X}\right) $$ 其中： - $\Phi(\cdot)$ 是标准正态分布的累积分布函数。 - $\Phi\left(\frac{c - \mu_X}{\sigma_X}\right)$ 和 $\Phi\left(\frac{c - \mu_Y}{\sigma_Y}\right)$ 分别表示组 $X$ 和组 $Y$ 中非响应者的概率。 - $c$ 是响应阈值，$\mu_X, \mu_Y$ 是组 $X$ 和 $Y$ 的均值，$\sigma_X, \sigma_Y$ 是标准差。 ## 优化问题我们希望追求最大的预期有效人数比例，即，目标是最小化非响应者总数： $$ \min \left\{ n_1 \Phi\left(\frac{c - \mu_X}{\sigma_X}\right) + n_2 \Phi\left(\frac{c - \mu_Y}{\sigma_Y}\right) \right\}, $$ 约束条件为： 1. $n_1 + n_2 = N$（总样本量固定）。 2. $\frac{\sigma_X^2}{n_1} + \frac{\sigma_Y^2}{n_2} = K$（$Z$ 统计量的分母固定，以保证检验的特定功率）。 ## 公式推导 ### 1. 构造拉格朗日函数在优化问题中，拉格朗日乘数法用于将有约束的极值问题转化为无约束问题，其核心是：将目标函数与约束条件结合，通过引入乘数（$\lambda$ 和 $\mu$）将约束条件融入优化过程。 $$ \mathcal{L} = n_1 \Phi_X + n_2 \Phi_Y + \lambda (N - n_1 - n_2) + \mu \left( K - \frac{\sigma_X^2}{n_1} - \frac{\sigma_Y^2}{n_2} \right) $$ 其中 $\Phi_X = \Phi\left(\frac{c-\mu_X}{\sigma_X}\right)$, $\Phi_Y = \Phi\left(\frac{c-\mu_Y}{\sigma_Y}\right)$，$n_1 \Phi_X + n_2 \Phi_Y$ 是目标函数，$\lambda (N - n_1 - n_2)$ 是总样本量约束，$\mu \left( K - \frac{\sigma_X^2}{n_1} - \frac{\sigma_Y^2}{n_2} \right)$ 是方差约束。 ### 2. 求偏导并令其为零通过对 $n_1$ 和 $n_2$ 求偏导并令其为零，可以得到极值条件： $$ \frac{\partial \mathcal{L}}{\partial n_1} = \Phi_X - \lambda + \mu \frac{\sigma_X^2}{n_1^2} = 0 \quad \Rightarrow \quad \lambda = \Phi_X + \mu \frac{\sigma_X^2}{n_1^2} $$ $$ \frac{\partial \mathcal{L}}{\partial n_2} = \Phi_Y - \lambda + \mu \frac{\sigma_Y^2}{n_2^2} = 0 \quad \Rightarrow \quad \lambda = \Phi_Y + \mu \frac{\sigma_Y^2}{n_2^2} $$ 通过联立对 $n_1$ 和 $n_2$ 的偏导方程，消去 $\lambda$ 后得到： $$ \Phi_X + \mu \frac{\sigma_X^2}{n_1^2} = \Phi_Y + \mu \frac{\sigma_Y^2}{n_2^2} $$ $$ \mu \left( \frac{\sigma_X^2}{n_1^2} - \frac{\sigma_Y^2}{n_2^2} \right) = \Phi_Y - \Phi_X \tag{1} $$ 设 $g = \frac{n_1}{N}$，$n_1 = N g$，$n_2 = N (1 - g)$，则： $$ \frac{\sigma_X^2}{g} + \frac{\sigma_Y^2}{1-g} = KN \tag{2} $$ $$ \mu \left( \frac{\sigma_X^2}{(gN)^2} - \frac{\sigma_Y^2}{[(1-g)N]^2} \right) = \Phi_Y - \Phi_X $$ 求解 $(1)$ 和 $(2)$，得到： $$ \frac{\sigma_X}{g} \sqrt{\Phi_Y} = \frac{\sigma_Y}{1-g} \sqrt{\Phi_X} \quad \Rightarrow \quad g = \frac{\sigma_X \sqrt{\Phi_Y}}{\sigma_X \sqrt{\Phi_Y} + \sigma_Y \sqrt{\Phi_X}} $$ $$ g = \frac{\sigma_X \sqrt{\Phi\left(\frac{c-\mu_Y}{\sigma_Y}\right)}}{\sigma_X \sqrt{\Phi\left(\frac{c-\mu_Y}{\sigma_Y}\right)} + \sigma_Y \sqrt{\Phi\left(\frac{c-\mu_X}{\sigma_X}\right)}} $$ ### 3. 关键结论在 $\mu \neq 0$ 的情况下，推导过程表明： - 最优分配比例 $g$ 同时依赖于两组的标准差和非响应概率。 - 若某组的非响应概率更低（即 $\Phi_X$ 或 $\Phi_Y$ 更小），应分配更多样本给该组以降低总非响应数。 - 若某组方差更大（$\sigma_X$ 或 $\sigma_Y$ 更大），需权衡其非响应概率与方差对统计功效的影响。通过 $g$ 的计算，可以确定最优的样本分配比例，以最小化非响应者总数，成功平衡了伦理与效率的双重目标。在实际中，我们可以先根据一些初始值来进行试验设计，然后通过 $g$ 的计算再来优化后续试验的样本分配比例。这也是一种反应-适应性设计的思路。 ## 示例以为 R 代码示例，计算 $g$ 值： ```{r} mu_X <- 2 mu_Y <- 1.5 sigma_X <- 1 sigma_Y <- 1.2 c <- 2 prob_X <- pnorm((c - mu_X) / sigma_X) prob_Y <- pnorm((c - mu_Y) / sigma_Y) g <- (sigma_X * sqrt(prob_Y)) / (sigma_X * sqrt(prob_Y) + sigma_Y * sqrt(prob_X)) cat("非响应概率 (X):", prob_X, "\n") cat("非响应概率 (Y):", prob_Y, "\n") cat("最优分配比例 g =", round(g, 4), "\n") ```