非响应概率 (X): 0.5
cat("非响应概率 (Y):", prob_Y, "\n")
非响应概率 (Y): 0.6615389
最优分配比例 g = 0.4894
Monday, March 10, 2025
我们前面讨论了平衡设计和非平衡设计的统计学效率,这里我们讨论,如何在总样本量固定为 \(N = n_1 + n_2\) 以及 \(\text{Var}(\bar{x}_1 - \bar{x}_2) = \frac{\sigma_1^2}{n_1} + \frac{\sigma_2^2}{n_2}=K\) 的情况下,追求最大的预期有效人数比例。
需要强调的是,我们这里的目标是处于伦理的考虑最小化非响应者总数,而不是追求统计学效率。
我们假设,对于某一个高优指标,超过某一阈值 \(c\) 的患者被认为是治疗有效。那么,自然地,对于组别 \(X\) 而言,某一受试者治疗无效的概率为:
\[ P(X<c)=\Phi\left(\frac{c - \mu_X}{\sigma_X}\right) \]
其中:
\(\Phi(\cdot)\) 是标准正态分布的累积分布函数。
\(\Phi\left(\frac{c - \mu_X}{\sigma_X}\right)\) 和 \(\Phi\left(\frac{c - \mu_Y}{\sigma_Y}\right)\) 分别表示组 \(X\) 和组 \(Y\) 中非响应者的概率。
\(c\) 是响应阈值,\(\mu_X, \mu_Y\) 是组 \(X\) 和 \(Y\) 的均值,\(\sigma_X, \sigma_Y\) 是标准差。
我们希望追求最大的预期有效人数比例,即,目标是最小化非响应者总数: \[ \min \left\{ n_1 \Phi\left(\frac{c - \mu_X}{\sigma_X}\right) + n_2 \Phi\left(\frac{c - \mu_Y}{\sigma_Y}\right) \right\}, \]
约束条件为:
\(n_1 + n_2 = N\)(总样本量固定)。
\(\frac{\sigma_X^2}{n_1} + \frac{\sigma_Y^2}{n_2} = K\)(\(Z\) 统计量的分母固定,以保证检验的特定功率)。
在优化问题中,拉格朗日乘数法用于将有约束的极值问题转化为无约束问题,其核心是:将目标函数与约束条件结合,通过引入乘数(\(\lambda\) 和 \(\mu\))将约束条件融入优化过程。
\[ \mathcal{L} = n_1 \Phi_X + n_2 \Phi_Y + \lambda (N - n_1 - n_2) + \mu \left( K - \frac{\sigma_X^2}{n_1} - \frac{\sigma_Y^2}{n_2} \right) \]
其中 \(\Phi_X = \Phi\left(\frac{c-\mu_X}{\sigma_X}\right)\), \(\Phi_Y = \Phi\left(\frac{c-\mu_Y}{\sigma_Y}\right)\),\(n_1 \Phi_X + n_2 \Phi_Y\) 是目标函数,\(\lambda (N - n_1 - n_2)\) 是总样本量约束,\(\mu \left( K - \frac{\sigma_X^2}{n_1} - \frac{\sigma_Y^2}{n_2} \right)\) 是方差约束。
通过对 \(n_1\) 和 \(n_2\) 求偏导并令其为零,可以得到极值条件:
\[ \frac{\partial \mathcal{L}}{\partial n_1} = \Phi_X - \lambda + \mu \frac{\sigma_X^2}{n_1^2} = 0 \quad \Rightarrow \quad \lambda = \Phi_X + \mu \frac{\sigma_X^2}{n_1^2} \]
\[ \frac{\partial \mathcal{L}}{\partial n_2} = \Phi_Y - \lambda + \mu \frac{\sigma_Y^2}{n_2^2} = 0 \quad \Rightarrow \quad \lambda = \Phi_Y + \mu \frac{\sigma_Y^2}{n_2^2} \]
通过联立对 \(n_1\) 和 \(n_2\) 的偏导方程,消去 \(\lambda\) 后得到:
\[ \Phi_X + \mu \frac{\sigma_X^2}{n_1^2} = \Phi_Y + \mu \frac{\sigma_Y^2}{n_2^2} \]
\[ \mu \left( \frac{\sigma_X^2}{n_1^2} - \frac{\sigma_Y^2}{n_2^2} \right) = \Phi_Y - \Phi_X \tag{1} \]
设 \(g = \frac{n_1}{N}\),\(n_1 = N g\),\(n_2 = N (1 - g)\),则:
\[ \frac{\sigma_X^2}{g} + \frac{\sigma_Y^2}{1-g} = KN \tag{2} \]
\[ \mu \left( \frac{\sigma_X^2}{(gN)^2} - \frac{\sigma_Y^2}{[(1-g)N]^2} \right) = \Phi_Y - \Phi_X \]
求解 \((1)\) 和 \((2)\),得到:
\[ \frac{\sigma_X}{g} \sqrt{\Phi_Y} = \frac{\sigma_Y}{1-g} \sqrt{\Phi_X} \quad \Rightarrow \quad g = \frac{\sigma_X \sqrt{\Phi_Y}}{\sigma_X \sqrt{\Phi_Y} + \sigma_Y \sqrt{\Phi_X}} \]
\[ g = \frac{\sigma_X \sqrt{\Phi\left(\frac{c-\mu_Y}{\sigma_Y}\right)}}{\sigma_X \sqrt{\Phi\left(\frac{c-\mu_Y}{\sigma_Y}\right)} + \sigma_Y \sqrt{\Phi\left(\frac{c-\mu_X}{\sigma_X}\right)}} \]
在 \(\mu \neq 0\) 的情况下,推导过程表明:
最优分配比例 \(g\) 同时依赖于两组的标准差和非响应概率。
若某组的非响应概率更低(即 \(\Phi_X\) 或 \(\Phi_Y\) 更小),应分配更多样本给该组以降低总非响应数。
若某组方差更大(\(\sigma_X\) 或 \(\sigma_Y\) 更大),需权衡其非响应概率与方差对统计功效的影响。
通过 \(g\) 的计算,可以确定最优的样本分配比例,以最小化非响应者总数,成功平衡了伦理与效率的双重目标。在实际中,我们可以先根据一些初始值来进行试验设计,然后通过 \(g\) 的计算再来优化后续试验的样本分配比例。这也是一种反应-适应性设计的思路。
以为 R 代码示例,计算 \(g\) 值:
---
title: "优化有效人数比例"
date: 2025-03-10
description: "Optimizing the Number of Responders"
image: "https://cdn.jsdelivr.net/gh/Leslie-Lu/WeChatOfficialAccount/img_2025/20250310153136.png"
categories:
- RCT
- Statistics
- Methodology
- allocation
- optimization
format:
html:
shift-heading-level-by: 1
include-in-header:
- text: |
<style type="text/css">
hr.dinkus {
width: 50px;
margin: 2em auto 2em;
border-top: 5px dotted #454545;
}
div.column-margin+hr.dinkus {
margin: 1em auto 2em;
}
</style>
---
## 引言
我们前面讨论了平衡设计和非平衡设计的统计学效率,这里我们讨论,如何在总样本量固定为 $N = n_1 + n_2$ 以及 $\text{Var}(\bar{x}_1 - \bar{x}_2) = \frac{\sigma_1^2}{n_1} + \frac{\sigma_2^2}{n_2}=K$ 的情况下,追求最大的预期有效人数比例。
需要强调的是,我们这里的目标是处于伦理的考虑最小化非响应者总数,而不是追求统计学效率。
## 问题描述
我们假设,对于某一个高优指标,超过某一阈值 $c$ 的患者被认为是治疗有效。那么,自然地,对于组别 $X$ 而言,某一受试者治疗无效的概率为:
$$
P(X<c)=\Phi\left(\frac{c - \mu_X}{\sigma_X}\right)
$$
其中:
- $\Phi(\cdot)$ 是标准正态分布的累积分布函数。
- $\Phi\left(\frac{c - \mu_X}{\sigma_X}\right)$ 和 $\Phi\left(\frac{c - \mu_Y}{\sigma_Y}\right)$ 分别表示组 $X$ 和组 $Y$ 中非响应者的概率。
- $c$ 是响应阈值,$\mu_X, \mu_Y$ 是组 $X$ 和 $Y$ 的均值,$\sigma_X, \sigma_Y$ 是标准差。
## 优化问题
我们希望追求最大的预期有效人数比例,即,目标是最小化非响应者总数:
$$
\min \left\{ n_1 \Phi\left(\frac{c - \mu_X}{\sigma_X}\right) + n_2 \Phi\left(\frac{c - \mu_Y}{\sigma_Y}\right) \right\},
$$
约束条件为:
1. $n_1 + n_2 = N$(总样本量固定)。
2. $\frac{\sigma_X^2}{n_1} + \frac{\sigma_Y^2}{n_2} = K$($Z$ 统计量的分母固定,以保证检验的特定功率)。
## 公式推导
### 1. 构造拉格朗日函数
在优化问题中,拉格朗日乘数法用于将有约束的极值问题转化为无约束问题,其核心是:将目标函数与约束条件结合,通过引入乘数($\lambda$ 和 $\mu$)将约束条件融入优化过程。
$$
\mathcal{L} = n_1 \Phi_X + n_2 \Phi_Y + \lambda (N - n_1 - n_2) + \mu \left( K - \frac{\sigma_X^2}{n_1} - \frac{\sigma_Y^2}{n_2} \right)
$$
其中 $\Phi_X = \Phi\left(\frac{c-\mu_X}{\sigma_X}\right)$, $\Phi_Y = \Phi\left(\frac{c-\mu_Y}{\sigma_Y}\right)$,$n_1 \Phi_X + n_2 \Phi_Y$ 是目标函数,$\lambda (N - n_1 - n_2)$ 是总样本量约束,$\mu \left( K - \frac{\sigma_X^2}{n_1} - \frac{\sigma_Y^2}{n_2} \right)$ 是方差约束。
### 2. 求偏导并令其为零
通过对 $n_1$ 和 $n_2$ 求偏导并令其为零,可以得到极值条件:
$$
\frac{\partial \mathcal{L}}{\partial n_1} = \Phi_X - \lambda + \mu \frac{\sigma_X^2}{n_1^2} = 0 \quad \Rightarrow \quad \lambda = \Phi_X + \mu \frac{\sigma_X^2}{n_1^2}
$$
$$
\frac{\partial \mathcal{L}}{\partial n_2} = \Phi_Y - \lambda + \mu \frac{\sigma_Y^2}{n_2^2} = 0 \quad \Rightarrow \quad \lambda = \Phi_Y + \mu \frac{\sigma_Y^2}{n_2^2}
$$
通过联立对 $n_1$ 和 $n_2$ 的偏导方程,消去 $\lambda$ 后得到:
$$
\Phi_X + \mu \frac{\sigma_X^2}{n_1^2} = \Phi_Y + \mu \frac{\sigma_Y^2}{n_2^2}
$$
$$
\mu \left( \frac{\sigma_X^2}{n_1^2} - \frac{\sigma_Y^2}{n_2^2} \right) = \Phi_Y - \Phi_X \tag{1}
$$
设 $g = \frac{n_1}{N}$,$n_1 = N g$,$n_2 = N (1 - g)$,则:
$$
\frac{\sigma_X^2}{g} + \frac{\sigma_Y^2}{1-g} = KN \tag{2}
$$
$$
\mu \left( \frac{\sigma_X^2}{(gN)^2} - \frac{\sigma_Y^2}{[(1-g)N]^2} \right) = \Phi_Y - \Phi_X
$$
求解 $(1)$ 和 $(2)$,得到:
$$
\frac{\sigma_X}{g} \sqrt{\Phi_Y} = \frac{\sigma_Y}{1-g} \sqrt{\Phi_X} \quad \Rightarrow \quad g = \frac{\sigma_X \sqrt{\Phi_Y}}{\sigma_X \sqrt{\Phi_Y} + \sigma_Y \sqrt{\Phi_X}}
$$
$$
g = \frac{\sigma_X \sqrt{\Phi\left(\frac{c-\mu_Y}{\sigma_Y}\right)}}{\sigma_X \sqrt{\Phi\left(\frac{c-\mu_Y}{\sigma_Y}\right)} + \sigma_Y \sqrt{\Phi\left(\frac{c-\mu_X}{\sigma_X}\right)}}
$$
### 3. 关键结论
在 $\mu \neq 0$ 的情况下,推导过程表明:
- 最优分配比例 $g$ 同时依赖于两组的标准差和非响应概率。
- 若某组的非响应概率更低(即 $\Phi_X$ 或 $\Phi_Y$ 更小),应分配更多样本给该组以降低总非响应数。
- 若某组方差更大($\sigma_X$ 或 $\sigma_Y$ 更大),需权衡其非响应概率与方差对统计功效的影响。
通过 $g$ 的计算,可以确定最优的样本分配比例,以最小化非响应者总数,成功平衡了伦理与效率的双重目标。在实际中,我们可以先根据一些初始值来进行试验设计,然后通过 $g$ 的计算再来优化后续试验的样本分配比例。这也是一种反应-适应性设计的思路。
## 示例
以为 R 代码示例,计算 $g$ 值:
```{r}
mu_X <- 2
mu_Y <- 1.5
sigma_X <- 1
sigma_Y <- 1.2
c <- 2
prob_X <- pnorm((c - mu_X) / sigma_X)
prob_Y <- pnorm((c - mu_Y) / sigma_Y)
g <- (sigma_X * sqrt(prob_Y)) / (sigma_X * sqrt(prob_Y) + sigma_Y * sqrt(prob_X))
cat("非响应概率 (X):", prob_X, "\n")
cat("非响应概率 (Y):", prob_Y, "\n")
cat("最优分配比例 g =", round(g, 4), "\n")
```