从“理想条件下有效”到“真实世界中有用”的距离有多远

pragmatic trial

explanatory trial

randomized controlled trial

real-world evidence

Pragmatic trial

Author

Zhen Lu

Published

Tuesday, March 31, 2026

临床研究里，大家最熟悉的是随机对照试验（RCT）。但很多医生、患者和决策者真正关心的问题，并不是：

“在高度理想、严格控制、执行完美的条件下，这个干预能不能起作用？”

而是：

“在日常临床实践中，面对真实的病人、真实的医生、真实的依从性和真实的医疗系统，这个干预到底有没有用？”

这正是 pragmatic trial 试图回答的问题。它对应的另一端，是 explanatory trial，即更强调机制验证和因果识别的 解释性试验。

一句话概括：

解释性试验更像在问”它在理想条件下是否有效”，实用性试验更像在问”它在真实世界里是否值得用”。

一、Pragmatic trial 是怎么提出的？

它是一种以 回答决策者最关心的真实世界问题 为目标的试验设计哲学。这里的决策者包括：

患者
临床医生
政策制定者
支付方

也就是说，pragmatic trial 的出发点不是”把一切都控制得尽可能干净”，而是”让研究结果尽可能对现实决策有用”。

这会直接影响试验设计的各个方面：

纳入什么样的人
在什么样的医疗场景开展
干预怎么执行
结局怎么定义
数据怎么收集
分析时关注什么问题

二、Pragmatic trial 和 explanatory trial 的核心区别

很多人第一次接触 pragmatic trial，会误以为它只是”做得没那么严格的 RCT”。这其实不对。

更准确地说，它们回答的是 不同层面的问题。

维度	Explanatory trial	Pragmatic trial
目标	证明干预在理想条件下的效果	评价干预在真实实践中的效果
核心关注	内部效度（internal validity）	外部效度/可推广性（external validity/generalizability）
研究对象	更“干净”、更标准化的人群	更接近日常临床的多样化人群
干预执行	尽量统一、标准化、严格监督	尽量保留临床实践中的自由度
结局	倾向客观、机制性终点	倾向患者关心的、整体性的结局
数据收集	更全面、更密集	更依赖常规医疗数据，额外负担更少

最重要的一点是：

pragmatic 和 explanatory 不是两个互斥类别，而是一个连续谱的两端。

现实中的很多研究，往往某些设计要素偏 pragmatic，另一些又偏 explanatory。真正成熟的研究设计，从来不是简单贴标签，而是在不同目标之间做取舍。

三、pragmatic trial 有哪些典型特征？

pragmatic trial 常见有以下几个特征。

1. 比较的是临床上真正 relevant 的备选方案

不是比较一个高度理想化的”纯处理”与安慰剂，而是比较临床实践中真实会发生竞争的方案。

例如：

比较两类药物，而不是只比较某个固定药物分子
同一类药里具体选哪种药，可以由医生决定
剂量可由临床判断调整
允许合并其他治疗（co-interventions）

这些做法会牺牲一些控制性，但更像现实中的临床决策。

2. 纳入更广泛、更多样的人群

pragmatic trial 往往只有很少的排除标准，甚至几乎没有。

因为现实中接受治疗的人，本来就不是一个高度筛选后的”完美样本”。如果研究只纳入年轻、依从性好、合并症少、诊断非常明确的患者，那么结果虽然干净，但临床可用性往往有限。

有时入组甚至可以基于 推定诊断，而不是必须等到最终确诊。因为在真实医疗中，很多治疗本来就是在诊断尚未完全确定时启动的。

3. 在差异很大的实践场景中开展

如果一项研究只在顶级中心、由最资深专家实施，那么它回答的是”在最理想的医疗环境中这个干预表现如何”。

但真实世界不是这样。

所以 pragmatic trial 会尽量纳入：

不同层级医院
不同地区
不同资源条件
不同经验水平的临床医生

一个很形象的例子：比较两种胃食管反流手术时，解释性试验可能只让食管外科专家参与；而 pragmatic trial 则可能把一年只做少量此类手术的普通外科医生也纳入。

4. 结局更倾向患者中心

解释性试验通常偏爱实验室指标、影像学结果、生物标志物等客观终点。

pragmatic trial 则更关注：

患者报告结局（PRO）
症状改善
功能状态
生活质量
全因死亡
是否住院
是否需要进一步治疗

因为这些结果，才更接近患者、医生和支付方真正关心的问题。

四、为什么 pragmatic trial 更贴近真实世界？

因为它刻意减少对临床实践的”打扰”。

在 explanatory trial 中，研究者常常会为了控制偏倚而做很多额外安排：

更短的随访
更频繁的访视
更严格的依从性监测
更详细的过程评估
更高强度的方案执行监督

这些做法有助于提高内部效度，但也会让研究环境越来越不像普通临床。

相反，pragmatic trial 的逻辑是：

如果我想知道一个干预在日常实践中能不能真正发挥作用，那研究本身就不应该把日常实践改造得面目全非。

例如，在比较两种 shared decision making 方法时，解释性研究可能会录音门诊过程、精细评估交流质量；但 pragmatic trial 通常不会加入这么多”侵入式”的研究动作，因为真实门诊里并没有这些额外安排。

五、Pragmatic trial 的优势到底是什么？

1. 更强的临床可解释性

临床医生最常面对的不是”完美执行治疗”的病人，而是：

依从性一般
合并症很多
诊断有时不完全清楚
医疗资源并不理想
医生风格存在差异

pragmatic trial 的价值就在于：它让研究结果更接近这些真实情境。

2. 更强的推广性

当研究人群、医生、场景都更接近日常医疗时，结果自然更容易迁移到本院、本科室、自己的患者身上。

3. 对卫生决策更有用

药监审批、医保支付、临床路径制定、指南更新，往往不仅关心”有没有 efficacy”，还关心：

能不能实施
在普通环境中还有没有效果
值不值得投入成本
对患者实际获益有多大

这些问题，恰恰是 pragmatic trial 更擅长回答的。

六、但 pragmatic trial 不是”没有代价”

实用性试验的优势，恰恰来自它”少打扰真实临床”的设计；而它的局限，也正是这种选择的直接后果。

1. 缺失数据更多

pragmatic trial 常依赖电子病历、医保理赔数据、死亡登记数据库等现成数据源。这样做的好处是：

便宜
高效
可规模化
更少额外负担

但问题是，临床数据不是为了研究而系统收集的。

除身高、体重、血压等常规指标外，很多研究真正想要的变量可能存在：

没记录
记录不完整
记录时间不统一
测量标准不一致

因此，缺失数据会更多，而缺失数据几乎总会增加结果解释的难度。

2. 数据变异更大

如果研究纳入了各种不同背景的医生和机构，那么从病人到病人的数据记录方式会更不一致，辅助治疗也会更丰富、更杂。

这当然更真实，但也意味着：

噪音更大
变异更大
估计更不精确

3. 方案执行更难统一

解释性试验更容易做到 protocol adherence。pragmatic trial 则往往允许医生和机构保留日常实践中的弹性。

结果就是：

同一干预的”剂量”可能不同
同一流程的落实程度可能不同
同一方案在不同中心的执行深度可能不同

这会使效应估计更接近真实世界，但也更难”干净地”解释。

4. 随访更长，随机化后的干扰更多

较长随访可以提供长期价值信息，但也会增加随机化后事件发生的机会，例如：

中途换药
合并其他治疗
失访
医疗环境变化
患者行为变化

这些因素会让结果更难解释。换句话说，研究越接近现实，现实本身的复杂性就越会进入研究。

七、成本上，pragmatic trial 是更便宜还是更贵？

没有统一答案。

explanatory trial 常见的控成本方式

尽量缩短随访时间
招募更容易在短期内发生终点事件的患者
更快积累事件数，从而更早结束研究

pragmatic trial 常见的控成本方式

利用电子病历、医保数据、死亡登记等现成数据源
从患者登记库中简化招募
减少额外随访接触次数
尽量不增加临床团队的研究负担

但这里有一个特别值得统计学家和临床研究者警惕的问题：

如果为了省钱而不去测量干预的实际执行强度，就可能把”没有落实”误判为”没有效果”。

很多干预，无论是临床治疗还是管理措施，都是 dose-dependent 的。病人没吃药、医生没执行、门诊没落实，最后观察到”无效”，不一定说明干预没用，也可能只是它根本没有被真正实施。

八、pragmatic trial 和 observational study 的边界在哪里？

这是一个非常现实的问题。

一个例子：患者面对手术和药物治疗时，先可以选择”接受常规治疗”还是”进入随机试验”。结果三分之二患者拒绝试验，剩下三分之一才被随机。

从”纯粹主义”的 RCT 视角看，这个设计确实不够干净，因为：

患者在一开始并没有全部随机
愿意进入随机的人，和不愿意进入随机的人，本来就可能不同
这种自我选择会带来选择偏倚

所以有人会质疑：这到底还是不是 clinical trial？

但从另一面看，这恰恰就是临床实践本来的样子：

患者会表达偏好
患者会拒绝随机
医生会与患者共同决策
治疗方案不会像实验室那样完全由研究者掌控

这说明一个很重要的事实：

越想让研究贴近真实临床，就越有可能偏离”纯随机试验”的理想形态。

这不是谁对谁错，而是研究目标不同带来的张力。

九、对生物统计工作者来说，最重要的认识是什么？

我认为有三点。

1. 不要把 pragmatic 和 explanatory 当成非黑即白的标签

现实中的研究更像位于一条连续谱上。一个研究可能：

入组很 pragmatic
干预执行很 explanatory
结局定义又比较 pragmatic
分析策略偏 explanatory

所以判断一项研究，不能只看作者怎么命名，而要看具体设计特征。

2. 内部效度和外部效度，通常需要权衡

提高内部效度，往往意味着：

更严格纳排
更高一致性
更强过程控制
更少噪音

但这常常会降低外部效度和可推广性。

反过来，越追求真实世界，就越会引入复杂性、异质性和解释上的不确定性。

3. 异质性解释可能需要”pragmatic 程度”这个视角

临床决策从来不依赖单个研究，而依赖证据体和系统综述。

当系统综述中研究结果高度异质时，我们通常会看：

人群是否不同
干预是否不同
结局是否不同
偏倚风险是否不同

我们认为还应该加上一点：

研究位于 explanatory-pragmatic 光谱的什么位置

因为同一个干预，在高度控制条件下有效，不代表在日常临床里同样有效；反之，在真实世界里效应被稀释，也不等于机制上无效。

十、如何一句话判断一项研究更偏 pragmatic 还是 explanatory？

我自己的一个简单判断方法是问 5 个问题：

这项研究纳入的人，像不像日常门诊里会遇到的病人？
参与研究的医生和机构，像不像普通临床环境？
干预执行方式，像不像真实世界会发生的样子？
结局指标，是不是患者和临床真正关心的结果？
数据收集过程，有没有明显改变原本的医疗行为？

如果这 5 个问题大多回答”像”，它通常就更偏 pragmatic。

十一、Takeways

pragmatic trial 的兴起，不是因为传统 RCT 不重要了，而是因为现代医疗决策越来越需要回答这样的问题：

某个干预在普通医疗环境中是否还能有效？
在依从性不完美的病人中是否仍值得推荐？
在资源有限、执行不完全一致的现实系统中是否仍有价值？
对患者真正关心的结局是否有改善？

所以，pragmatic trial 不是”降低标准”的研究，而是 把研究问题从”理想条件下是否有效”推进到”真实世界中是否有用”。

对于生物统计工作者而言，真正重要的不是站队，而是清楚地知道：

你想回答什么问题，就应该接受与之匹配的设计代价。

这也是 pragmatic trial 最值得理解的地方 (Sox and Lewis 2016)。

References

Sox, Harold C., and Roger J. Lewis. 2016. “Pragmatic Trials: Practical Answers to ‘Real World’ Questions.” Journal Article. JAMA 316 (11): 1205–6. https://doi.org/10.1001/jama.2016.11409.

--- title: "从“理想条件下有效”到“真实世界中有用”的距离有多远" date: 2026-03-31 description: "Pragmatic trial" image: "https://cdn.jsdelivr.net/gh/Leslie-Lu/images/images/43faf651802366b70bfef5bbc1f7eeee.jpg" categories: - pragmatic trial - explanatory trial - randomized controlled trial - real-world evidence format: html: shift-heading-level-by: 1 include-in-header: - text: | <style type="text/css"> hr.dinkus { width: 50px; margin: 2em auto 2em; border-top: 5px dotted #454545; } div.column-margin+hr.dinkus { margin: 1em auto 2em; } </style> --- 临床研究里，大家最熟悉的是随机对照试验（RCT）。但很多医生、患者和决策者真正关心的问题，并不是： "在高度理想、严格控制、执行完美的条件下，这个干预能不能起作用？" 而是： "在日常临床实践中，面对真实的病人、真实的医生、真实的依从性和真实的医疗系统，这个干预到底有没有用？" 这正是 **pragmatic trial** 试图回答的问题。它对应的另一端，是 **explanatory trial**，即更强调机制验证和因果识别的 **解释性试验**。一句话概括： > **解释性试验更像在问"它在理想条件下是否有效"，实用性试验更像在问"它在真实世界里是否值得用"。** ## 一、Pragmatic trial 是怎么提出的？它是一种以 **回答决策者最关心的真实世界问题** 为目标的试验设计哲学。这里的决策者包括： - 患者 - 临床医生 - 政策制定者 - 支付方也就是说，pragmatic trial 的出发点不是"把一切都控制得尽可能干净"，而是"让研究结果尽可能对现实决策有用"。这会直接影响试验设计的各个方面： - 纳入什么样的人 - 在什么样的医疗场景开展 - 干预怎么执行 - 结局怎么定义 - 数据怎么收集 - 分析时关注什么问题 ## 二、Pragmatic trial 和 explanatory trial 的核心区别很多人第一次接触 pragmatic trial，会误以为它只是"做得没那么严格的 RCT"。这其实不对。更准确地说，它们回答的是 **不同层面的问题**。 | 维度 | Explanatory trial | Pragmatic trial | | -------- | ----------------------------- | ------------------------------------------------------- | | 目标 | 证明干预在理想条件下的效果 | 评价干预在真实实践中的效果 | | 核心关注 | 内部效度（internal validity） | 外部效度/可推广性（external validity/generalizability） | | 研究对象 | 更“干净”、更标准化的人群 | 更接近日常临床的多样化人群 | | 干预执行 | 尽量统一、标准化、严格监督 | 尽量保留临床实践中的自由度 | | 结局 | 倾向客观、机制性终点 | 倾向患者关心的、整体性的结局 | | 数据收集 | 更全面、更密集 | 更依赖常规医疗数据，额外负担更少 | 最重要的一点是： > **pragmatic 和 explanatory 不是两个互斥类别，而是一个连续谱的两端。** 现实中的很多研究，往往某些设计要素偏 pragmatic，另一些又偏 explanatory。真正成熟的研究设计，从来不是简单贴标签，而是在不同目标之间做取舍。 ## 三、pragmatic trial 有哪些典型特征？ pragmatic trial 常见有以下几个特征。 ### 1. 比较的是临床上真正 relevant 的备选方案不是比较一个高度理想化的"纯处理"与安慰剂，而是比较临床实践中真实会发生竞争的方案。例如： - 比较两类药物，而不是只比较某个固定药物分子 - 同一类药里具体选哪种药，可以由医生决定 - 剂量可由临床判断调整 - 允许合并其他治疗（co-interventions）这些做法会牺牲一些控制性，但更像现实中的临床决策。 ### 2. 纳入更广泛、更多样的人群 pragmatic trial 往往只有很少的排除标准，甚至几乎没有。因为现实中接受治疗的人，本来就不是一个高度筛选后的"完美样本"。如果研究只纳入年轻、依从性好、合并症少、诊断非常明确的患者，那么结果虽然干净，但临床可用性往往有限。有时入组甚至可以基于 **推定诊断**，而不是必须等到最终确诊。因为在真实医疗中，很多治疗本来就是在诊断尚未完全确定时启动的。 ### 3. 在差异很大的实践场景中开展如果一项研究只在顶级中心、由最资深专家实施，那么它回答的是"在最理想的医疗环境中这个干预表现如何"。但真实世界不是这样。所以 pragmatic trial 会尽量纳入： - 不同层级医院 - 不同地区 - 不同资源条件 - 不同经验水平的临床医生一个很形象的例子：比较两种胃食管反流手术时，解释性试验可能只让食管外科专家参与；而 pragmatic trial 则可能把一年只做少量此类手术的普通外科医生也纳入。 ### 4. 结局更倾向患者中心解释性试验通常偏爱实验室指标、影像学结果、生物标志物等客观终点。 pragmatic trial 则更关注： - 患者报告结局（PRO） - 症状改善 - 功能状态 - 生活质量 - 全因死亡 - 是否住院 - 是否需要进一步治疗因为这些结果，才更接近患者、医生和支付方真正关心的问题。 ## 四、为什么 pragmatic trial 更贴近真实世界？因为它刻意减少对临床实践的"打扰"。在 explanatory trial 中，研究者常常会为了控制偏倚而做很多额外安排： - 更短的随访 - 更频繁的访视 - 更严格的依从性监测 - 更详细的过程评估 - 更高强度的方案执行监督这些做法有助于提高内部效度，但也会让研究环境越来越不像普通临床。相反，pragmatic trial 的逻辑是： > **如果我想知道一个干预在日常实践中能不能真正发挥作用，那研究本身就不应该把日常实践改造得面目全非。** 例如，在比较两种 shared decision making 方法时，解释性研究可能会录音门诊过程、精细评估交流质量；但 pragmatic trial 通常不会加入这么多"侵入式"的研究动作，因为真实门诊里并没有这些额外安排。 ## 五、Pragmatic trial 的优势到底是什么？ ### 1. 更强的临床可解释性临床医生最常面对的不是"完美执行治疗"的病人，而是： - 依从性一般 - 合并症很多 - 诊断有时不完全清楚 - 医疗资源并不理想 - 医生风格存在差异 pragmatic trial 的价值就在于：它让研究结果更接近这些真实情境。 ### 2. 更强的推广性当研究人群、医生、场景都更接近日常医疗时，结果自然更容易迁移到本院、本科室、自己的患者身上。 ### 3. 对卫生决策更有用药监审批、医保支付、临床路径制定、指南更新，往往不仅关心"有没有 efficacy"，还关心： - 能不能实施 - 在普通环境中还有没有效果 - 值不值得投入成本 - 对患者实际获益有多大这些问题，恰恰是 pragmatic trial 更擅长回答的。 ## 六、但 pragmatic trial 不是"没有代价" 实用性试验的优势，恰恰来自它"少打扰真实临床"的设计；而它的局限，也正是这种选择的直接后果。 ### 1. 缺失数据更多 pragmatic trial 常依赖电子病历、医保理赔数据、死亡登记数据库等现成数据源。这样做的好处是： - 便宜 - 高效 - 可规模化 - 更少额外负担但问题是，临床数据不是为了研究而系统收集的。除身高、体重、血压等常规指标外，很多研究真正想要的变量可能存在： - 没记录 - 记录不完整 - 记录时间不统一 - 测量标准不一致因此，缺失数据会更多，而缺失数据几乎总会增加结果解释的难度。 ### 2. 数据变异更大如果研究纳入了各种不同背景的医生和机构，那么从病人到病人的数据记录方式会更不一致，辅助治疗也会更丰富、更杂。这当然更真实，但也意味着： - 噪音更大 - 变异更大 - 估计更不精确 ### 3. 方案执行更难统一解释性试验更容易做到 protocol adherence。pragmatic trial 则往往允许医生和机构保留日常实践中的弹性。结果就是： - 同一干预的"剂量"可能不同 - 同一流程的落实程度可能不同 - 同一方案在不同中心的执行深度可能不同这会使效应估计更接近真实世界，但也更难"干净地"解释。 ### 4. 随访更长，随机化后的干扰更多较长随访可以提供长期价值信息，但也会增加随机化后事件发生的机会，例如： - 中途换药 - 合并其他治疗 - 失访 - 医疗环境变化 - 患者行为变化这些因素会让结果更难解释。换句话说，研究越接近现实，现实本身的复杂性就越会进入研究。 ## 七、成本上，pragmatic trial 是更便宜还是更贵？没有统一答案。 ### explanatory trial 常见的控成本方式 - 尽量缩短随访时间 - 招募更容易在短期内发生终点事件的患者 - 更快积累事件数，从而更早结束研究 ### pragmatic trial 常见的控成本方式 - 利用电子病历、医保数据、死亡登记等现成数据源 - 从患者登记库中简化招募 - 减少额外随访接触次数 - 尽量不增加临床团队的研究负担但这里有一个特别值得统计学家和临床研究者警惕的问题： > **如果为了省钱而不去测量干预的实际执行强度，就可能把"没有落实"误判为"没有效果"。** 很多干预，无论是临床治疗还是管理措施，都是 dose-dependent 的。病人没吃药、医生没执行、门诊没落实，最后观察到"无效"，不一定说明干预没用，也可能只是它根本没有被真正实施。 ## 八、pragmatic trial 和 observational study 的边界在哪里？这是一个非常现实的问题。一个例子：患者面对手术和药物治疗时，先可以选择"接受常规治疗"还是"进入随机试验"。结果三分之二患者拒绝试验，剩下三分之一才被随机。从"纯粹主义"的 RCT 视角看，这个设计确实不够干净，因为： - 患者在一开始并没有全部随机 - 愿意进入随机的人，和不愿意进入随机的人，本来就可能不同 - 这种自我选择会带来选择偏倚所以有人会质疑：这到底还是不是 clinical trial？但从另一面看，这恰恰就是临床实践本来的样子： - 患者会表达偏好 - 患者会拒绝随机 - 医生会与患者共同决策 - 治疗方案不会像实验室那样完全由研究者掌控这说明一个很重要的事实： > **越想让研究贴近真实临床，就越有可能偏离"纯随机试验"的理想形态。** 这不是谁对谁错，而是研究目标不同带来的张力。 ## 九、对生物统计工作者来说，最重要的认识是什么？我认为有三点。 ### 1. 不要把 pragmatic 和 explanatory 当成非黑即白的标签现实中的研究更像位于一条连续谱上。一个研究可能： - 入组很 pragmatic - 干预执行很 explanatory - 结局定义又比较 pragmatic - 分析策略偏 explanatory 所以判断一项研究，不能只看作者怎么命名，而要看具体设计特征。 ### 2. 内部效度和外部效度，通常需要权衡提高内部效度，往往意味着： - 更严格纳排 - 更高一致性 - 更强过程控制 - 更少噪音但这常常会降低外部效度和可推广性。反过来，越追求真实世界，就越会引入复杂性、异质性和解释上的不确定性。 ### 3. 异质性解释可能需要"pragmatic 程度"这个视角临床决策从来不依赖单个研究，而依赖证据体和系统综述。当系统综述中研究结果高度异质时，我们通常会看： - 人群是否不同 - 干预是否不同 - 结局是否不同 - 偏倚风险是否不同我们认为还应该加上一点： - **研究位于 explanatory-pragmatic 光谱的什么位置** 因为同一个干预，在高度控制条件下有效，不代表在日常临床里同样有效；反之，在真实世界里效应被稀释，也不等于机制上无效。 ## 十、如何一句话判断一项研究更偏 pragmatic 还是 explanatory？我自己的一个简单判断方法是问 5 个问题： 1. 这项研究纳入的人，像不像日常门诊里会遇到的病人？ 2. 参与研究的医生和机构，像不像普通临床环境？ 3. 干预执行方式，像不像真实世界会发生的样子？ 4. 结局指标，是不是患者和临床真正关心的结果？ 5. 数据收集过程，有没有明显改变原本的医疗行为？如果这 5 个问题大多回答"像"，它通常就更偏 pragmatic。 ## 十一、Takeways pragmatic trial 的兴起，不是因为传统 RCT 不重要了，而是因为现代医疗决策越来越需要回答这样的问题： - 某个干预在普通医疗环境中是否还能有效？ - 在依从性不完美的病人中是否仍值得推荐？ - 在资源有限、执行不完全一致的现实系统中是否仍有价值？ - 对患者真正关心的结局是否有改善？所以，pragmatic trial 不是"降低标准"的研究，而是 **把研究问题从"理想条件下是否有效"推进到"真实世界中是否有用"**。对于生物统计工作者而言，真正重要的不是站队，而是清楚地知道： > **你想回答什么问题，就应该接受与之匹配的设计代价。** 这也是 pragmatic trial 最值得理解的地方 [@RN1599]。