因果 estimand

Understanding different causal estimands (ATE, ATT, ATC) and their implications.
causal inference
epidemiology
estimands
propensity score
SMR weights
ATT
ATE
Author
Published

Friday, April 3, 2026

临床研究里,大家最熟悉的是随机对照试验(RCT)。但很多医生、患者和决策者真正关心的问题,并不是:

“在高度理想、严格控制、执行完美的条件下,这个干预能不能起作用?”

而是:

“在日常临床实践中,面对真实的病人、真实的医生、真实的依从性和真实的医疗系统,这个干预到底有没有用?”

这正是 pragmatic trial 试图回答的问题。它对应的另一端,是 explanatory trial,即更强调机制验证和因果识别的 解释性试验

一句话概括:

解释性试验更像在问“它在理想条件下是否有效”,实用性试验更像在问“它在真实世界里是否值得用”。

一、Pragmatic trial 是怎么提出的?

它是一种以 回答决策者最关心的真实世界问题 为目标的试验设计哲学。这里的决策者包括:

  • 患者
  • 临床医生
  • 政策制定者
  • 支付方

也就是说,pragmatic trial 的出发点不是“把一切都控制得尽可能干净”,而是“让研究结果尽可能对现实决策有用”。

这会直接影响试验设计的各个方面:

  • 纳入什么样的人
  • 在什么样的医疗场景开展
  • 干预怎么执行
  • 结局怎么定义
  • 数据怎么收集
  • 分析时关注什么问题

二、Pragmatic trial 和 explanatory trial 的核心区别

很多人第一次接触 pragmatic trial,会误以为它只是“做得没那么严格的 RCT”。这其实不对。

更准确地说,它们回答的是 不同层面的问题

维度 Explanatory trial Pragmatic trial
目标 证明干预在理想条件下的效果 评价干预在真实实践中的效果
核心关注 内部效度(internal validity) 外部效度/可推广性(external validity/generalizability)
研究对象 更“干净”、更标准化的人群 更接近日常临床的多样化人群
干预执行 尽量统一、标准化、严格监督 尽量保留临床实践中的自由度
结局 倾向客观、机制性终点 倾向患者关心的、整体性的结局
数据收集 更全面、更密集 更依赖常规医疗数据,额外负担更少

最重要的一点是:

pragmatic 和 explanatory 不是两个互斥类别,而是一个连续谱的两端。

现实中的很多研究,往往某些设计要素偏 pragmatic,另一些又偏 explanatory。真正成熟的研究设计,从来不是简单贴标签,而是在不同目标之间做取舍。

三、pragmatic trial 有哪些典型特征?

pragmatic trial 常见有以下几个特征。

1. 比较的是临床上真正 relevant 的备选方案

不是比较一个高度理想化的“纯处理”与安慰剂,而是比较临床实践中真实会发生竞争的方案。

例如:

  • 比较两类药物,而不是只比较某个固定药物分子
  • 同一类药里具体选哪种药,可以由医生决定
  • 剂量可由临床判断调整
  • 允许合并其他治疗(co-interventions)

这些做法会牺牲一些控制性,但更像现实中的临床决策。

2. 纳入更广泛、更多样的人群

pragmatic trial 往往只有很少的排除标准,甚至几乎没有。

因为现实中接受治疗的人,本来就不是一个高度筛选后的“完美样本”。如果研究只纳入年轻、依从性好、合并症少、诊断非常明确的患者,那么结果虽然干净,但临床可用性往往有限。

有时入组甚至可以基于 推定诊断,而不是必须等到最终确诊。因为在真实医疗中,很多治疗本来就是在诊断尚未完全确定时启动的。

3. 在差异很大的实践场景中开展

如果一项研究只在顶级中心、由最资深专家实施,那么它回答的是“在最理想的医疗环境中这个干预表现如何”。

但真实世界不是这样。

所以 pragmatic trial 会尽量纳入:

  • 不同层级医院
  • 不同地区
  • 不同资源条件
  • 不同经验水平的临床医生

一个很形象的例子:比较两种胃食管反流手术时,解释性试验可能只让食管外科专家参与;而 pragmatic trial 则可能把一年只做少量此类手术的普通外科医生也纳入。

4. 结局更倾向患者中心

解释性试验通常偏爱实验室指标、影像学结果、生物标志物等客观终点。

pragmatic trial 则更关注:

  • 患者报告结局(PRO)
  • 症状改善
  • 功能状态
  • 生活质量
  • 全因死亡
  • 是否住院
  • 是否需要进一步治疗

因为这些结果,才更接近患者、医生和支付方真正关心的问题。

四、为什么 pragmatic trial 更贴近真实世界?

因为它刻意减少对临床实践的“打扰”。

在 explanatory trial 中,研究者常常会为了控制偏倚而做很多额外安排:

  • 更短的随访
  • 更频繁的访视
  • 更严格的依从性监测
  • 更详细的过程评估
  • 更高强度的方案执行监督

这些做法有助于提高内部效度,但也会让研究环境越来越不像普通临床。

相反,pragmatic trial 的逻辑是:

如果我想知道一个干预在日常实践中能不能真正发挥作用,那研究本身就不应该把日常实践改造得面目全非。

例如,在比较两种 shared decision making 方法时,解释性研究可能会录音门诊过程、精细评估交流质量;但 pragmatic trial 通常不会加入这么多“侵入式”的研究动作,因为真实门诊里并没有这些额外安排。

五、Pragmatic trial 的优势到底是什么?

1. 更强的临床可解释性

临床医生最常面对的不是“完美执行治疗”的病人,而是:

  • 依从性一般
  • 合并症很多
  • 诊断有时不完全清楚
  • 医疗资源并不理想
  • 医生风格存在差异

pragmatic trial 的价值就在于:它让研究结果更接近这些真实情境。

2. 更强的推广性

当研究人群、医生、场景都更接近日常医疗时,结果自然更容易迁移到本院、本科室、自己的患者身上。

3. 对卫生决策更有用

药监审批、医保支付、临床路径制定、指南更新,往往不仅关心“有没有 efficacy”,还关心:

  • 能不能实施
  • 在普通环境中还有没有效果
  • 值不值得投入成本
  • 对患者实际获益有多大

这些问题,恰恰是 pragmatic trial 更擅长回答的。

六、但 pragmatic trial 不是“没有代价”

实用性试验的优势,恰恰来自它“少打扰真实临床”的设计;而它的局限,也正是这种选择的直接后果。

1. 缺失数据更多

pragmatic trial 常依赖电子病历、医保理赔数据、死亡登记数据库等现成数据源。这样做的好处是:

  • 便宜
  • 高效
  • 可规模化
  • 更少额外负担

但问题是,临床数据不是为了研究而系统收集的。

除身高、体重、血压等常规指标外,很多研究真正想要的变量可能存在:

  • 没记录
  • 记录不完整
  • 记录时间不统一
  • 测量标准不一致

因此,缺失数据会更多,而缺失数据几乎总会增加结果解释的难度。

2. 数据变异更大

如果研究纳入了各种不同背景的医生和机构,那么从病人到病人的数据记录方式会更不一致,辅助治疗也会更丰富、更杂。

这当然更真实,但也意味着:

  • 噪音更大
  • 变异更大
  • 估计更不精确

3. 方案执行更难统一

解释性试验更容易做到 protocol adherence。pragmatic trial 则往往允许医生和机构保留日常实践中的弹性。

结果就是:

  • 同一干预的“剂量”可能不同
  • 同一流程的落实程度可能不同
  • 同一方案在不同中心的执行深度可能不同

这会使效应估计更接近真实世界,但也更难“干净地”解释。

4. 随访更长,随机化后的干扰更多

较长随访可以提供长期价值信息,但也会增加随机化后事件发生的机会,例如:

  • 中途换药
  • 合并其他治疗
  • 失访
  • 医疗环境变化
  • 患者行为变化

这些因素会让结果更难解释。换句话说,研究越接近现实,现实本身的复杂性就越会进入研究。

七、成本上,pragmatic trial 是更便宜还是更贵?

没有统一答案。

explanatory trial 常见的控成本方式

  • 尽量缩短随访时间
  • 招募更容易在短期内发生终点事件的患者
  • 更快积累事件数,从而更早结束研究

pragmatic trial 常见的控成本方式

  • 利用电子病历、医保数据、死亡登记等现成数据源
  • 从患者登记库中简化招募
  • 减少额外随访接触次数
  • 尽量不增加临床团队的研究负担

但这里有一个特别值得统计学家和临床研究者警惕的问题:

如果为了省钱而不去测量干预的实际执行强度,就可能把“没有落实”误判为“没有效果”。

很多干预,无论是临床治疗还是管理措施,都是 dose-dependent 的。病人没吃药、医生没执行、门诊没落实,最后观察到“无效”,不一定说明干预没用,也可能只是它根本没有被真正实施。

八、pragmatic trial 和 observational study 的边界在哪里?

这是一个非常现实的问题。

一个例子:患者面对手术和药物治疗时,先可以选择“接受常规治疗”还是“进入随机试验”。结果三分之二患者拒绝试验,剩下三分之一才被随机。

从“纯粹主义”的 RCT 视角看,这个设计确实不够干净,因为:

  • 患者在一开始并没有全部随机
  • 愿意进入随机的人,和不愿意进入随机的人,本来就可能不同
  • 这种自我选择会带来选择偏倚

所以有人会质疑:这到底还是不是 clinical trial?

但从另一面看,这恰恰就是临床实践本来的样子:

  • 患者会表达偏好
  • 患者会拒绝随机
  • 医生会与患者共同决策
  • 治疗方案不会像实验室那样完全由研究者掌控

这说明一个很重要的事实:

越想让研究贴近真实临床,就越有可能偏离“纯随机试验”的理想形态。

这不是谁对谁错,而是研究目标不同带来的张力。

九、对生物统计工作者来说,最重要的认识是什么?

我认为有三点。

1. 不要把 pragmatic 和 explanatory 当成非黑即白的标签

现实中的研究更像位于一条连续谱上。一个研究可能:

  • 入组很 pragmatic
  • 干预执行很 explanatory
  • 结局定义又比较 pragmatic
  • 分析策略偏 explanatory

所以判断一项研究,不能只看作者怎么命名,而要看具体设计特征。

2. 内部效度和外部效度,通常需要权衡

提高内部效度,往往意味着:

  • 更严格纳排
  • 更高一致性
  • 更强过程控制
  • 更少噪音

但这常常会降低外部效度和可推广性。

反过来,越追求真实世界,就越会引入复杂性、异质性和解释上的不确定性。

3. 异质性解释可能需要“pragmatic 程度”这个视角

临床决策从来不依赖单个研究,而依赖证据体和系统综述。

当系统综述中研究结果高度异质时,我们通常会看:

  • 人群是否不同
  • 干预是否不同
  • 结局是否不同
  • 偏倚风险是否不同

我们认为还应该加上一点:

  • 研究位于 explanatory-pragmatic 光谱的什么位置

因为同一个干预,在高度控制条件下有效,不代表在日常临床里同样有效;反之,在真实世界里效应被稀释,也不等于机制上无效。

十、如何一句话判断一项研究更偏 pragmatic 还是 explanatory?

我自己的一个简单判断方法是问 5 个问题:

  1. 这项研究纳入的人,像不像日常门诊里会遇到的病人?
  2. 参与研究的医生和机构,像不像普通临床环境?
  3. 干预执行方式,像不像真实世界会发生的样子?
  4. 结局指标,是不是患者和临床真正关心的结果?
  5. 数据收集过程,有没有明显改变原本的医疗行为?

如果这 5 个问题大多回答“像”,它通常就更偏 pragmatic。

十一、Takeways

pragmatic trial 的兴起,不是因为传统 RCT 不重要了,而是因为现代医疗决策越来越需要回答这样的问题:

  • 某个干预在普通医疗环境中是否还能有效?
  • 在依从性不完美的病人中是否仍值得推荐?
  • 在资源有限、执行不完全一致的现实系统中是否仍有价值?
  • 对患者真正关心的结局是否有改善?

所以,pragmatic trial 不是“降低标准”的研究,而是 把研究问题从“理想条件下是否有效”推进到“真实世界中是否有用”

对于生物统计工作者而言,真正重要的不是站队,而是清楚地知道:

你想回答什么问题,就应该接受与之匹配的设计代价。

这也是 pragmatic trial 最值得理解的地方 (Sox and Lewis 2016)

References

Sox, Harold C., and Roger J. Lewis. 2016. “Pragmatic Trials: Practical Answers to ‘Real World’ Questions.” Journal Article. JAMA 316 (11): 1205–6. https://doi.org/10.1001/jama.2016.11409.