临床研究里,大家最熟悉的是随机对照试验(RCT)。但很多医生、患者和决策者真正关心的问题,并不是:
“在高度理想、严格控制、执行完美的条件下,这个干预能不能起作用?”
而是:
“在日常临床实践中,面对真实的病人、真实的医生、真实的依从性和真实的医疗系统,这个干预到底有没有用?”
这正是 pragmatic trial 试图回答的问题。它对应的另一端,是 explanatory trial,即更强调机制验证和因果识别的 解释性试验。
一句话概括:
解释性试验更像在问“它在理想条件下是否有效”,实用性试验更像在问“它在真实世界里是否值得用”。
一、Pragmatic trial 是怎么提出的?
它是一种以 回答决策者最关心的真实世界问题 为目标的试验设计哲学。这里的决策者包括:
- 患者
- 临床医生
- 政策制定者
- 支付方
也就是说,pragmatic trial 的出发点不是“把一切都控制得尽可能干净”,而是“让研究结果尽可能对现实决策有用”。
这会直接影响试验设计的各个方面:
- 纳入什么样的人
- 在什么样的医疗场景开展
- 干预怎么执行
- 结局怎么定义
- 数据怎么收集
- 分析时关注什么问题
二、Pragmatic trial 和 explanatory trial 的核心区别
很多人第一次接触 pragmatic trial,会误以为它只是“做得没那么严格的 RCT”。这其实不对。
更准确地说,它们回答的是 不同层面的问题。
| 维度 | Explanatory trial | Pragmatic trial |
|---|---|---|
| 目标 | 证明干预在理想条件下的效果 | 评价干预在真实实践中的效果 |
| 核心关注 | 内部效度(internal validity) | 外部效度/可推广性(external validity/generalizability) |
| 研究对象 | 更“干净”、更标准化的人群 | 更接近日常临床的多样化人群 |
| 干预执行 | 尽量统一、标准化、严格监督 | 尽量保留临床实践中的自由度 |
| 结局 | 倾向客观、机制性终点 | 倾向患者关心的、整体性的结局 |
| 数据收集 | 更全面、更密集 | 更依赖常规医疗数据,额外负担更少 |
最重要的一点是:
pragmatic 和 explanatory 不是两个互斥类别,而是一个连续谱的两端。
现实中的很多研究,往往某些设计要素偏 pragmatic,另一些又偏 explanatory。真正成熟的研究设计,从来不是简单贴标签,而是在不同目标之间做取舍。
三、pragmatic trial 有哪些典型特征?
pragmatic trial 常见有以下几个特征。
1. 比较的是临床上真正 relevant 的备选方案
不是比较一个高度理想化的“纯处理”与安慰剂,而是比较临床实践中真实会发生竞争的方案。
例如:
- 比较两类药物,而不是只比较某个固定药物分子
- 同一类药里具体选哪种药,可以由医生决定
- 剂量可由临床判断调整
- 允许合并其他治疗(co-interventions)
这些做法会牺牲一些控制性,但更像现实中的临床决策。
2. 纳入更广泛、更多样的人群
pragmatic trial 往往只有很少的排除标准,甚至几乎没有。
因为现实中接受治疗的人,本来就不是一个高度筛选后的“完美样本”。如果研究只纳入年轻、依从性好、合并症少、诊断非常明确的患者,那么结果虽然干净,但临床可用性往往有限。
有时入组甚至可以基于 推定诊断,而不是必须等到最终确诊。因为在真实医疗中,很多治疗本来就是在诊断尚未完全确定时启动的。
3. 在差异很大的实践场景中开展
如果一项研究只在顶级中心、由最资深专家实施,那么它回答的是“在最理想的医疗环境中这个干预表现如何”。
但真实世界不是这样。
所以 pragmatic trial 会尽量纳入:
- 不同层级医院
- 不同地区
- 不同资源条件
- 不同经验水平的临床医生
一个很形象的例子:比较两种胃食管反流手术时,解释性试验可能只让食管外科专家参与;而 pragmatic trial 则可能把一年只做少量此类手术的普通外科医生也纳入。
4. 结局更倾向患者中心
解释性试验通常偏爱实验室指标、影像学结果、生物标志物等客观终点。
pragmatic trial 则更关注:
- 患者报告结局(PRO)
- 症状改善
- 功能状态
- 生活质量
- 全因死亡
- 是否住院
- 是否需要进一步治疗
因为这些结果,才更接近患者、医生和支付方真正关心的问题。
四、为什么 pragmatic trial 更贴近真实世界?
因为它刻意减少对临床实践的“打扰”。
在 explanatory trial 中,研究者常常会为了控制偏倚而做很多额外安排:
- 更短的随访
- 更频繁的访视
- 更严格的依从性监测
- 更详细的过程评估
- 更高强度的方案执行监督
这些做法有助于提高内部效度,但也会让研究环境越来越不像普通临床。
相反,pragmatic trial 的逻辑是:
如果我想知道一个干预在日常实践中能不能真正发挥作用,那研究本身就不应该把日常实践改造得面目全非。
例如,在比较两种 shared decision making 方法时,解释性研究可能会录音门诊过程、精细评估交流质量;但 pragmatic trial 通常不会加入这么多“侵入式”的研究动作,因为真实门诊里并没有这些额外安排。
五、Pragmatic trial 的优势到底是什么?
1. 更强的临床可解释性
临床医生最常面对的不是“完美执行治疗”的病人,而是:
- 依从性一般
- 合并症很多
- 诊断有时不完全清楚
- 医疗资源并不理想
- 医生风格存在差异
pragmatic trial 的价值就在于:它让研究结果更接近这些真实情境。
2. 更强的推广性
当研究人群、医生、场景都更接近日常医疗时,结果自然更容易迁移到本院、本科室、自己的患者身上。
3. 对卫生决策更有用
药监审批、医保支付、临床路径制定、指南更新,往往不仅关心“有没有 efficacy”,还关心:
- 能不能实施
- 在普通环境中还有没有效果
- 值不值得投入成本
- 对患者实际获益有多大
这些问题,恰恰是 pragmatic trial 更擅长回答的。
六、但 pragmatic trial 不是“没有代价”
实用性试验的优势,恰恰来自它“少打扰真实临床”的设计;而它的局限,也正是这种选择的直接后果。
1. 缺失数据更多
pragmatic trial 常依赖电子病历、医保理赔数据、死亡登记数据库等现成数据源。这样做的好处是:
- 便宜
- 高效
- 可规模化
- 更少额外负担
但问题是,临床数据不是为了研究而系统收集的。
除身高、体重、血压等常规指标外,很多研究真正想要的变量可能存在:
- 没记录
- 记录不完整
- 记录时间不统一
- 测量标准不一致
因此,缺失数据会更多,而缺失数据几乎总会增加结果解释的难度。
2. 数据变异更大
如果研究纳入了各种不同背景的医生和机构,那么从病人到病人的数据记录方式会更不一致,辅助治疗也会更丰富、更杂。
这当然更真实,但也意味着:
- 噪音更大
- 变异更大
- 估计更不精确
3. 方案执行更难统一
解释性试验更容易做到 protocol adherence。pragmatic trial 则往往允许医生和机构保留日常实践中的弹性。
结果就是:
- 同一干预的“剂量”可能不同
- 同一流程的落实程度可能不同
- 同一方案在不同中心的执行深度可能不同
这会使效应估计更接近真实世界,但也更难“干净地”解释。
4. 随访更长,随机化后的干扰更多
较长随访可以提供长期价值信息,但也会增加随机化后事件发生的机会,例如:
- 中途换药
- 合并其他治疗
- 失访
- 医疗环境变化
- 患者行为变化
这些因素会让结果更难解释。换句话说,研究越接近现实,现实本身的复杂性就越会进入研究。
七、成本上,pragmatic trial 是更便宜还是更贵?
没有统一答案。
explanatory trial 常见的控成本方式
- 尽量缩短随访时间
- 招募更容易在短期内发生终点事件的患者
- 更快积累事件数,从而更早结束研究
pragmatic trial 常见的控成本方式
- 利用电子病历、医保数据、死亡登记等现成数据源
- 从患者登记库中简化招募
- 减少额外随访接触次数
- 尽量不增加临床团队的研究负担
但这里有一个特别值得统计学家和临床研究者警惕的问题:
如果为了省钱而不去测量干预的实际执行强度,就可能把“没有落实”误判为“没有效果”。
很多干预,无论是临床治疗还是管理措施,都是 dose-dependent 的。病人没吃药、医生没执行、门诊没落实,最后观察到“无效”,不一定说明干预没用,也可能只是它根本没有被真正实施。
八、pragmatic trial 和 observational study 的边界在哪里?
这是一个非常现实的问题。
一个例子:患者面对手术和药物治疗时,先可以选择“接受常规治疗”还是“进入随机试验”。结果三分之二患者拒绝试验,剩下三分之一才被随机。
从“纯粹主义”的 RCT 视角看,这个设计确实不够干净,因为:
- 患者在一开始并没有全部随机
- 愿意进入随机的人,和不愿意进入随机的人,本来就可能不同
- 这种自我选择会带来选择偏倚
所以有人会质疑:这到底还是不是 clinical trial?
但从另一面看,这恰恰就是临床实践本来的样子:
- 患者会表达偏好
- 患者会拒绝随机
- 医生会与患者共同决策
- 治疗方案不会像实验室那样完全由研究者掌控
这说明一个很重要的事实:
越想让研究贴近真实临床,就越有可能偏离“纯随机试验”的理想形态。
这不是谁对谁错,而是研究目标不同带来的张力。
九、对生物统计工作者来说,最重要的认识是什么?
我认为有三点。
1. 不要把 pragmatic 和 explanatory 当成非黑即白的标签
现实中的研究更像位于一条连续谱上。一个研究可能:
- 入组很 pragmatic
- 干预执行很 explanatory
- 结局定义又比较 pragmatic
- 分析策略偏 explanatory
所以判断一项研究,不能只看作者怎么命名,而要看具体设计特征。
2. 内部效度和外部效度,通常需要权衡
提高内部效度,往往意味着:
- 更严格纳排
- 更高一致性
- 更强过程控制
- 更少噪音
但这常常会降低外部效度和可推广性。
反过来,越追求真实世界,就越会引入复杂性、异质性和解释上的不确定性。
3. 异质性解释可能需要“pragmatic 程度”这个视角
临床决策从来不依赖单个研究,而依赖证据体和系统综述。
当系统综述中研究结果高度异质时,我们通常会看:
- 人群是否不同
- 干预是否不同
- 结局是否不同
- 偏倚风险是否不同
我们认为还应该加上一点:
- 研究位于 explanatory-pragmatic 光谱的什么位置
因为同一个干预,在高度控制条件下有效,不代表在日常临床里同样有效;反之,在真实世界里效应被稀释,也不等于机制上无效。
十、如何一句话判断一项研究更偏 pragmatic 还是 explanatory?
我自己的一个简单判断方法是问 5 个问题:
- 这项研究纳入的人,像不像日常门诊里会遇到的病人?
- 参与研究的医生和机构,像不像普通临床环境?
- 干预执行方式,像不像真实世界会发生的样子?
- 结局指标,是不是患者和临床真正关心的结果?
- 数据收集过程,有没有明显改变原本的医疗行为?
如果这 5 个问题大多回答“像”,它通常就更偏 pragmatic。
十一、Takeways
pragmatic trial 的兴起,不是因为传统 RCT 不重要了,而是因为现代医疗决策越来越需要回答这样的问题:
- 某个干预在普通医疗环境中是否还能有效?
- 在依从性不完美的病人中是否仍值得推荐?
- 在资源有限、执行不完全一致的现实系统中是否仍有价值?
- 对患者真正关心的结局是否有改善?
所以,pragmatic trial 不是“降低标准”的研究,而是 把研究问题从“理想条件下是否有效”推进到“真实世界中是否有用”。
对于生物统计工作者而言,真正重要的不是站队,而是清楚地知道:
你想回答什么问题,就应该接受与之匹配的设计代价。
这也是 pragmatic trial 最值得理解的地方 (Sox and Lewis 2016)。