证明随机化和盲法消除向均值回归偏倚

引言

讨论治疗分配时采用随机化和评估处理效应时采用盲法将如何帮助消除向均值回归所导致的偏倚。

背景

我们假设 $X_1$ 是处理组的基线测量值，$X_2$ 是同一组的随访测量值，且配对测量值 $(X_1, X_2)$ 服从二元正态分布。向均值回归（regression to the mean）是一种统计现象，是仅对那些具有极端初始测量值的个体进行第二次测量时发生的现象，指基线测量值 $X_1$ 较高（低）的个体在随访测量中 $X_2$ 回归到总体均值 $\mu$ 的现象。

在临床试验中，这种现象可能被误认为是治疗效果。这里我们试着使用线性回归模型证明，随机化和盲法可以消除这种向均值回归的偏倚。

线性回归模型

设处理组的 $X_1$ 和 $X_2$ 二元正态分布的均值向量和协方差矩阵为：

\[ \begin{pmatrix} X_1 \\ X_2 \end{pmatrix} \sim \text{N} \left( \begin{pmatrix} \mu_1 \\ \mu_2 \end{pmatrix}, \begin{pmatrix} \sigma_1^2 & \rho\sigma_1\sigma_2 \\ \rho\sigma_1\sigma_2 & \sigma_2^2 \end{pmatrix} \right) \]

其中，

$\rho = \frac{\text{Cov}(X_1, X_2)}{\sigma_1 \sigma_2}$ 是 $X_1$ 和 $X_2$ 之间的相关系数。

我们使用简单的线性回归模型来描述 $X_1$ 和 $X_2$ 之间的关系：

\[ E(X_2|X_1) = \alpha + \beta X_1= \mu_2 + \rho \frac{\sigma_2}{\sigma_1} (X_1 - \mu_1) \]

其中：

$\alpha = \mu_2- \beta \mu_1$ ，
$\beta= \rho \frac{\sigma_2}{\sigma_1}$ 。

向均值回归的影响

我们假设该处理组无治疗效果，即 $\mu_1=\mu_2=\mu$ 且 $\sigma_1=\sigma_2=\sigma$ ，则对于特定值 $X_1=x_1$，有：

\[ E(X_2|X_1=x_1) = \mu + \rho (x_1-\mu) \]

在等号两侧各减去 $\mu$ 并取绝对值后，有以下不等式成立：

\[ |E(X_2|X_1=x_1) - \mu| = |\rho| |(x_1-\mu)| \leq |(x_1-\mu)| \]

如此一来，我们可以看到，当 $x_1$ 取极端值时，$X_2$ 与 $\mu$ 之间的差异大体上始终会减小，$X_2$ 的期望值会向 $\mu$ 靠拢，这也就是著名的向均值回归现象。而在临床试验中，这种自然变化可能被误认为是治疗效果（因为在无处理效应时却看似产生了效果），从而带来偏倚。

上面式子也可以表示为:

\[ |E(X_2|X_1=x_1)-x_1| = |(\rho-1)(x_1-\mu)| \]

可以更加清楚地看到，对于特定的 $X_1=x_1$，公式左侧向均值回归所产生的影响通常不为零。只有当 $\rho=1$ 或者 $x_1$ 是一个等于总体均值 $\mu$ 的完美样本时，向均值回归的影响消失为零。

随机化的作用

接下来，我们开始讨论随机化如何帮助消除向均值回归的偏倚。

由于随机化，使得处理组和对照组的基线测量值的分布相同，即均值均为 $\mu$，方差相同。对照组模型为：

\[ |E(Y_2|Y_1=y_1)-y_1| = |(\rho-1)(y_1-\mu)| \]

处理组和对照组均会发生向均值回归，治疗效果则通常通过组间差异来评估：

\[ \Delta = |E(X_2|X_1=x_1)-x_1| - |E(Y_2|Y_1=y_1)-y_1| \]

因为随机化使得 $|E(X_2|X_1=x_1)-x_1| \approx |E(Y_2|Y_1=y_1)-y_1|$，向均值回归的影响在 $\Delta$ 中抵消。若存在处理效应，则经过随机化之后得到的 $\Delta$ 会更接近于真实的治疗效果，而排除了向均值回归得偏倚。

盲法的作用

而对于盲法帮助消除向均值回归的偏倚，主要在于盲法确保在不知道治疗分配情况下的 $x_2$ 和 $y_2$ 测量的客观性，避免人为放大或掩盖向均值回归的自然变化，从而进一步防止向均值回归被误解为治疗效应。

结论

随机化通过均衡基线消除向均值回归的组间差异，盲法通过客观测量避免主观偏倚，两者共同确保治疗效果估计无偏。

--- title: "证明随机化和盲法消除向均值回归偏倚" date: 2025-03-08 description: "randomization and blindness" image: "https://cdn.jsdelivr.net/gh/Leslie-Lu/WeChatOfficialAccount/img_2025/20250307224129.png" categories: - RCT - Statistics - Methodology - randomization - blindness - regression to the mean format: html: shift-heading-level-by: 1 include-in-header: - text: | <style type="text/css"> hr.dinkus { width: 50px; margin: 2em auto 2em; border-top: 5px dotted #454545; } div.column-margin+hr.dinkus { margin: 1em auto 2em; } </style> --- ## 引言讨论治疗分配时采用随机化和评估处理效应时采用盲法将如何帮助消除向均值回归所导致的偏倚。 ## 背景我们假设 $X_1$ 是处理组的基线测量值，$X_2$ 是同一组的随访测量值，且配对测量值 $(X_1, X_2)$ 服从二元正态分布。向均值回归（regression to the mean）是一种统计现象，是仅对那些具有 **极端** 初始测量值的个体进行第二次测量时发生的现象，指基线测量值 $X_1$ 较高（低）的个体在随访测量中 $X_2$ 回归到总体均值 $\mu$ 的现象。在临床试验中，这种现象可能被误认为是治疗效果。这里我们试着使用线性回归模型证明，随机化和盲法可以消除这种向均值回归的偏倚。 ## 线性回归模型设处理组的 $X_1$ 和 $X_2$ 二元正态分布的均值向量和协方差矩阵为： $$ \begin{pmatrix} X_1 \\ X_2 \end{pmatrix} \sim \text{N} \left( \begin{pmatrix} \mu_1 \\ \mu_2 \end{pmatrix}, \begin{pmatrix} \sigma_1^2 & \rho\sigma_1\sigma_2 \\ \rho\sigma_1\sigma_2 & \sigma_2^2 \end{pmatrix} \right) $$ 其中， $\rho = \frac{\text{Cov}(X_1, X_2)}{\sigma_1 \sigma_2}$ 是 $X_1$ 和 $X_2$ 之间的相关系数。我们使用简单的线性回归模型来描述 $X_1$ 和 $X_2$ 之间的关系： $$ E(X_2|X_1) = \alpha + \beta X_1= \mu_2 + \rho \frac{\sigma_2}{\sigma_1} (X_1 - \mu_1) $$ 其中： - $\alpha = \mu_2- \beta \mu_1$ ， - $\beta= \rho \frac{\sigma_2}{\sigma_1}$ 。 ## 向均值回归的影响我们假设该处理组无治疗效果，即 $\mu_1=\mu_2=\mu$ 且 $\sigma_1=\sigma_2=\sigma$ ，则对于特定值 $X_1=x_1$，有： $$ E(X_2|X_1=x_1) = \mu + \rho (x_1-\mu) $$ 在等号两侧各减去 $\mu$ 并取绝对值后，有以下不等式成立： $$ |E(X_2|X_1=x_1) - \mu| = |\rho| |(x_1-\mu)| \leq |(x_1-\mu)| $$ 如此一来，我们可以看到，当 $x_1$ 取极端值时，$X_2$ 与 $\mu$ 之间的差异大体上始终会减小，$X_2$ 的期望值会向 $\mu$ 靠拢，这也就是著名的向均值回归现象。而在临床试验中，这种自然变化可能被误认为是治疗效果（因为在无处理效应时却看似产生了效果），从而带来偏倚。上面式子也可以表示为: $$ |E(X_2|X_1=x_1)-x_1| = |(\rho-1)(x_1-\mu)| $$ 可以更加清楚地看到，对于特定的 $X_1=x_1$，公式左侧向均值回归所产生的影响通常不为零。只有当 $\rho=1$ 或者 $x_1$ 是一个等于总体均值 $\mu$ 的完美样本时，向均值回归的影响消失为零。 ## 随机化的作用接下来，我们开始讨论随机化如何帮助消除向均值回归的偏倚。由于随机化，使得处理组和对照组的基线测量值的分布相同，即均值均为 $\mu$，方差相同。对照组模型为： $$ |E(Y_2|Y_1=y_1)-y_1| = |(\rho-1)(y_1-\mu)| $$ 处理组和对照组均会发生向均值回归，治疗效果则通常通过组间差异来评估： $$ \Delta = |E(X_2|X_1=x_1)-x_1| - |E(Y_2|Y_1=y_1)-y_1| $$ 因为随机化使得 $|E(X_2|X_1=x_1)-x_1| \approx |E(Y_2|Y_1=y_1)-y_1|$，向均值回归的影响在 $\Delta$ 中抵消。若存在处理效应，则经过随机化之后得到的 $\Delta$ 会更接近于真实的治疗效果，而排除了向均值回归得偏倚。 ## 盲法的作用而对于盲法帮助消除向均值回归的偏倚，主要在于盲法确保在不知道治疗分配情况下的 $x_2$ 和 $y_2$ 测量的客观性，避免人为放大或掩盖向均值回归的自然变化，从而进一步防止向均值回归被误解为治疗效应。 ## 结论随机化通过均衡基线消除向均值回归的组间差异，盲法通过客观测量避免主观偏倚，两者共同确保治疗效果估计无偏。