我们前面有过一篇文章简要地介绍了多重填补的tipping point analysis。在今天这篇文章里,我们结合一篇 jama 文章的实例进行一些详细的补充说明。
一、为什么会有 tipping point analysis?
在随机对照试验中,研究者最怕的事情之一,不是完全没有数据,而是有一部分结局数据缺失。
因为一旦出现失访、退出、未完成随访等情况,我们看到的治疗效果,就不一定还能代表全部入组人群的真实效果。更棘手的是,缺失数据带来的偏倚方向往往并不容易预判。
这时,一个非常实用的问题就出现了:
如果这些缺失者和我们已经观察到的受试者不一样,那么他们要“不一样”到什么程度,原始结论才会被推翻?
这正是 tipping point analysis 想回答的问题。 我们对这一方法的统计学定位是:它的核心任务不是“修正缺失”,而是评估原始结论对缺失数据假设有多敏感。
二、tipping point analysis 到底在做什么?
最简洁的理解是:
它是在做一个“压力测试”。
也就是说,研究者先从原始主分析出发,然后针对缺失数据,逐步施加越来越不利于原结论的假设,看看要到什么程度,研究结果才会从“显著”变成“不显著”,或从“治疗有效”变成“治疗无效”。
这个“让结论翻盘的临界点”,就是 tipping point。
因此,tipping point analysis 不是在问:
- 真相一定是什么?
- 缺失值最可能是多少?
它问的是另一个问题:
- 要想把当前结论推翻,缺失数据必须朝哪个方向偏?
- 又必须偏到多大程度?
三、为什么它和 missing at random / missing not at random 有关?
理解 tipping point analysis,一个关键前提是理解“缺失机制”。
临床研究里常见的表述是:
- MAR(missing at random):在给定已观测信息后,缺失的发生不再依赖缺失值本身
- MNAR(missing not at random):缺失的发生仍然与那个没有被观察到的真实值有关
举个直观例子。
如果做满意度调查时,有人没填问卷只是因为忘记了,这更接近随机缺失;但如果越不满意的人越不愿意填写问卷,那么“缺失”本身就和真实满意度相关,这就是非随机缺失。
tipping point analysis 的思路是:如果要想让原始结论改变,往往需要假设缺失者和非缺失者存在某种系统性的差异。而一旦这种差异足够大、足够有方向性,就意味着:
这些缺失并不是“随便少掉”的,而更像是 MNAR。
所以,tipping point analysis 实际上是在把一个抽象问题具体化:
若缺失机制真的是非随机的,它得严重到什么程度,才足以颠覆当前结论?
四、它在统计上是怎么做的?
研究者会对缺失数据的插补值施加 shift parameters(偏移参数)。
可以把它理解为:
- 先基于某个主分析模型,对缺失值进行插补
- 然后人为地把这些插补值朝特定方向调整
- 再重新计算治疗效应
- 用不同幅度的偏移反复重复
- 直到结果发生改变
如果原始试验结果对治疗组有利,那么为了推翻这个结论,偏移方向通常会这样选:
- 把治疗组缺失者的结局往更差的方向推
- 把对照组缺失者的结局往更好的方向推
这是因为只有这样,才会系统性削弱治疗组的优势。
这里需要特别提醒一点:有时会说“往上移”或“往下移”,但“上”和“下”本身没有固定的好坏含义,必须看研究终点的定义。比如:
- 如果数值越大越差,那么“向上偏移”就是更差
- 如果数值越大越好,那么“向上偏移”就是更好
所以,真正应该抓住的是:
偏移的方向,不是数学上的上下,而是是否有利于推翻原结论。
五、为什么一定是“治疗组更差”或“对照组更好”,才可能翻盘?
很多人第一次接触 tipping point analysis 时,最困惑的地方就在这里。
假设一个试验原始结果显示:治疗组优于对照组。
那要推翻它,只有两条路:
- 让治疗组看起来其实没有那么好
- 让对照组看起来其实没有那么差
所以,对于缺失者,最能动摇原始结论的假设通常是:
- 治疗组缺失者的真实结局比已观察到的治疗组患者更差
- 对照组缺失者的真实结局比已观察到的对照组患者更好
如果反过来设想:
- 治疗组缺失者更好
- 对照组缺失者更差
那只会让原始结论更稳,而不会把它推翻。
因此,tipping point analysis 本质上是在寻找:
哪一种“最不利于原结论”的缺失数据情景,能够把结果推过那条临界线。
六、如何判断“偏移得太多了”?
这正是 tipping point analysis 最有价值,也最容易被误解的地方。
很多人以为这类分析最后会给出一个精确概率,告诉你某个缺失情景“有多可能发生”。其实不是。
它能告诉你的,是:
- 如果缺失者比非缺失者差 2 个单位,结论不变
- 差 5 个单位,结论仍不变
- 差到 9 个单位时,结论终于翻盘
但它不能自动告诉你:
- “差 9 个单位”到底现实不现实
- 这种情景在临床上有多大概率成立
所以,JAMA文章 (Liu, Zhou, and Sims 2025) 的表述非常关键:
这不是一种 adjustment method。
它也不是在 quantifying the plausibility of a given scenario for missing data。
翻成更直白的话就是:
- 它不是缺失数据的校正方法
- 它也不是缺失情景合理性的量化工具
最后该怎么解释,仍然要回到:
- 临床判断
- 既往证据
- 疾病自然史
- 研究对象特征
- 常识
也就是说,真正重要的不是“能不能翻盘”,而是:
要翻盘所需要的那种偏移,是否临床上可信。
如果只需一个很小而且很 plausible 的偏移,研究结果就变了,那就值得警惕;如果必须假设一个非常夸张、明显不现实的差异,结论才会改变,那么主分析往往可以被认为较为稳健。
七、一个非常好的实例:尼日利亚降压三联药试验
一个随机试验案例 (Ojji et al. 2024):尼日利亚低剂量三联单片复方降压方案 vs 标准治疗方案。
这项研究发表于 JAMA 2024 年,比较对象是:
- 干预组:低剂量三联单片复方方案
- 对照组:标准高血压治疗方案
主要终点是 6 个月家庭平均收缩压的降低幅度。
研究共纳入 300 例受试者,其中 273 例完成试验,约 9% 受试者在 6 个月时缺少家庭血压结局数据。
主分析结果显示:
- 三联药方案组平均家庭收缩压下降约 31 mm Hg
- 标准治疗组下降约 26 mm Hg
- 调整后组间差异为 -5.8 mm Hg(95% CI,-8.0 到 -3.6;P < .001)
也就是说,原始结论很明确:三联药方案比标准治疗更有效。
那么,缺失数据会不会把这个结论推翻?
研究者进一步做了 tipping point analysis。它的含义不是“重新证明三联药有效”,而是问:
如果那些缺失了结局数据的患者,其真实血压和已观察到的人不一样,那么要不一样到什么程度,才会让原始结论不成立?
分析发现,要改变原始结论,需要满足非常极端的条件之一:
- 三联药组中缺失数据的患者,真实血压必须高得离谱
- 或者标准治疗组中缺失数据的患者,真实血压必须低得离谱
换句话说,要想把“三联药更优”的结论推翻,必须假设:
- 干预组缺失者比同组已观察者糟糕很多
- 或对照组缺失者比同组已观察者好很多
而这种程度的差异,被作者认为是 implausible,即临床上不太可信。
因此,这项分析最后支持的不是“缺失不重要”,而是:
即便考虑缺失数据,只要我们不接受一个极不现实的缺失情景,三联药优于标准治疗的结论仍然成立。
这正是 tipping point analysis 的典型价值。
八、tipping point analysis 能回答什么,不能回答什么?
它能回答的问题
- 原始结论对缺失数据假设是否敏感?
- 缺失者需要与非缺失者差异多大,结果才会翻盘?
- 哪个方向的偏移最能动摇主分析结论?
- 研究结论是“脆弱的”,还是“稳健的”?
它不能回答的问题
- 缺失值的真实分布到底是什么
- 某个缺失情景到底有多大概率是真的
- 它是否能替代主要分析或正式的缺失数据建模
- 它是否能自动消除缺失带来的偏倚
九、在论文写作或审稿中,应该怎样解读 tipping point analysis?
我们建议至少抓住以下 4 个层次。
1. 先看主分析结论是什么
如果主分析本来就不稳,那么 tipping point analysis 的解释空间也有限。它始终是围绕主分析结论展开的敏感性分析,而不是脱离主分析单独存在。
2. 再看 tipping point 的方向是否合理
如果原结论是治疗组更好,那么通常就应该考察:
- 治疗组缺失者更差
- 对照组缺失者更好
如果方向设错了,敏感性分析的解释价值会明显下降。
3. 最关键的是看“临界点有多远”
不要只盯着“做没做”。真正该问的是:
- 只要很小偏移就翻盘?
- 还是要极端偏移才翻盘?
前者提示结果脆弱,后者提示结果稳健。
4. 最后必须回到 plausible 这个词
统计学上找到了 tipping point,并不等于解释结束。
研究者还必须说明:
- 这个偏移幅度在临床上是否合理
- 是否有既往证据支持这种差异
- 缺失者为何可能比非缺失者更差或更好
- 这种假设是否符合疾病机制与实际随访经验
没有这一步,tipping point analysis 很容易沦为“做了一个图,但不知道该如何解释”。
十、几点启发
1. 它特别适合放在有失访风险的 RCT 中
尤其是主要终点缺失、并且缺失比例不算极低时,tipping point analysis 可以帮助读者更直观地理解研究结论的稳健性。
2. 它最好和主要缺失数据策略配合使用
例如与 multiple imputation、pattern-mixture model 或其他敏感性分析一起报告,而不是孤立使用。
3. 结果表达一定要临床化
不要只写“结果稳健”或“结果不稳健”。更好的表述是:
- 需要多大幅度的偏移才会翻盘
- 这一幅度在临床上是否 plausible
- 支持这一判断的证据基础是什么
4. 审稿时不要只看有没有做,要看有没有解释
一个没有临床解释的 tipping point analysis,统计动作是完成了,但科学解释并没有完成。
十一、Takeaways
缺失数据问题最麻烦的地方,不在于“有缺失”,而在于“我们不知道缺失者到底是什么样的人”。
tipping point analysis 的高明之处就在于:它不假装自己知道真相,而是换一个更务实的问题来问。
假如缺失者真的和已观察者不一样,那么他们得不一样到什么程度,才足以把我们的结论推翻?
如果答案是“只要稍微偏一点就能翻盘”,那就说明结果脆弱;如果答案是“必须偏到临床上几乎不可能”,那主分析结论就更值得信赖。
所以,tipping point analysis 的价值,不是替研究者作判断,而是把判断所需要的关键尺度摆到台面上。
而这正是我们认为临床研究中优秀的敏感性分析应有的样子。