Tipping point analysis的一些补充说明

Futher explanation of tipping point analysis.
randomized trial
RCT
multiple imputation
tipping point analysis
missing data
Author
Published

Sunday, March 22, 2026

我们前面有过一篇文章简要地介绍了多重填补的tipping point analysis。在今天这篇文章里,我们结合一篇 jama 文章的实例进行一些详细的补充说明。

一、为什么会有 tipping point analysis?

在随机对照试验中,研究者最怕的事情之一,不是完全没有数据,而是有一部分结局数据缺失

因为一旦出现失访、退出、未完成随访等情况,我们看到的治疗效果,就不一定还能代表全部入组人群的真实效果。更棘手的是,缺失数据带来的偏倚方向往往并不容易预判。

这时,一个非常实用的问题就出现了:

如果这些缺失者和我们已经观察到的受试者不一样,那么他们要“不一样”到什么程度,原始结论才会被推翻?

这正是 tipping point analysis 想回答的问题。 我们对这一方法的统计学定位是:它的核心任务不是“修正缺失”,而是评估原始结论对缺失数据假设有多敏感

二、tipping point analysis 到底在做什么?

最简洁的理解是:

它是在做一个“压力测试”。

也就是说,研究者先从原始主分析出发,然后针对缺失数据,逐步施加越来越不利于原结论的假设,看看要到什么程度,研究结果才会从“显著”变成“不显著”,或从“治疗有效”变成“治疗无效”。

这个“让结论翻盘的临界点”,就是 tipping point

因此,tipping point analysis 不是在问:

  • 真相一定是什么?
  • 缺失值最可能是多少?

它问的是另一个问题:

  • 要想把当前结论推翻,缺失数据必须朝哪个方向偏?
  • 又必须偏到多大程度?

三、为什么它和 missing at random / missing not at random 有关?

理解 tipping point analysis,一个关键前提是理解“缺失机制”。

临床研究里常见的表述是:

  • MAR(missing at random):在给定已观测信息后,缺失的发生不再依赖缺失值本身
  • MNAR(missing not at random):缺失的发生仍然与那个没有被观察到的真实值有关

举个直观例子。

如果做满意度调查时,有人没填问卷只是因为忘记了,这更接近随机缺失;但如果越不满意的人越不愿意填写问卷,那么“缺失”本身就和真实满意度相关,这就是非随机缺失。

tipping point analysis 的思路是:如果要想让原始结论改变,往往需要假设缺失者和非缺失者存在某种系统性的差异。而一旦这种差异足够大、足够有方向性,就意味着:

这些缺失并不是“随便少掉”的,而更像是 MNAR

所以,tipping point analysis 实际上是在把一个抽象问题具体化:

若缺失机制真的是非随机的,它得严重到什么程度,才足以颠覆当前结论?

四、它在统计上是怎么做的?

研究者会对缺失数据的插补值施加 shift parameters(偏移参数)

可以把它理解为:

  • 先基于某个主分析模型,对缺失值进行插补
  • 然后人为地把这些插补值朝特定方向调整
  • 再重新计算治疗效应
  • 用不同幅度的偏移反复重复
  • 直到结果发生改变

如果原始试验结果对治疗组有利,那么为了推翻这个结论,偏移方向通常会这样选:

  • 把治疗组缺失者的结局往更差的方向推
  • 把对照组缺失者的结局往更好的方向推

这是因为只有这样,才会系统性削弱治疗组的优势。

这里需要特别提醒一点:有时会说“往上移”或“往下移”,但“上”和“下”本身没有固定的好坏含义,必须看研究终点的定义。比如:

  • 如果数值越大越差,那么“向上偏移”就是更差
  • 如果数值越大越好,那么“向上偏移”就是更好

所以,真正应该抓住的是:

偏移的方向,不是数学上的上下,而是是否有利于推翻原结论。

五、为什么一定是“治疗组更差”或“对照组更好”,才可能翻盘?

很多人第一次接触 tipping point analysis 时,最困惑的地方就在这里。

假设一个试验原始结果显示:治疗组优于对照组。

那要推翻它,只有两条路:

  1. 让治疗组看起来其实没有那么好
  2. 让对照组看起来其实没有那么差

所以,对于缺失者,最能动摇原始结论的假设通常是:

  • 治疗组缺失者的真实结局比已观察到的治疗组患者更差
  • 对照组缺失者的真实结局比已观察到的对照组患者更好

如果反过来设想:

  • 治疗组缺失者更好
  • 对照组缺失者更差

那只会让原始结论更稳,而不会把它推翻。

因此,tipping point analysis 本质上是在寻找:

哪一种“最不利于原结论”的缺失数据情景,能够把结果推过那条临界线。

六、如何判断“偏移得太多了”?

这正是 tipping point analysis 最有价值,也最容易被误解的地方。

很多人以为这类分析最后会给出一个精确概率,告诉你某个缺失情景“有多可能发生”。其实不是。

它能告诉你的,是:

  • 如果缺失者比非缺失者差 2 个单位,结论不变
  • 差 5 个单位,结论仍不变
  • 差到 9 个单位时,结论终于翻盘

但它不能自动告诉你

  • “差 9 个单位”到底现实不现实
  • 这种情景在临床上有多大概率成立

所以,JAMA文章 (Liu, Zhou, and Sims 2025) 的表述非常关键:

这不是一种 adjustment method。
它也不是在 quantifying the plausibility of a given scenario for missing data。

翻成更直白的话就是:

  • 它不是缺失数据的校正方法
  • 它也不是缺失情景合理性的量化工具

最后该怎么解释,仍然要回到:

  • 临床判断
  • 既往证据
  • 疾病自然史
  • 研究对象特征
  • 常识

也就是说,真正重要的不是“能不能翻盘”,而是:

要翻盘所需要的那种偏移,是否临床上可信。

如果只需一个很小而且很 plausible 的偏移,研究结果就变了,那就值得警惕;如果必须假设一个非常夸张、明显不现实的差异,结论才会改变,那么主分析往往可以被认为较为稳健。

七、一个非常好的实例:尼日利亚降压三联药试验

一个随机试验案例 (Ojji et al. 2024)尼日利亚低剂量三联单片复方降压方案 vs 标准治疗方案

这项研究发表于 JAMA 2024 年,比较对象是:

  • 干预组:低剂量三联单片复方方案
  • 对照组:标准高血压治疗方案

主要终点是 6 个月家庭平均收缩压的降低幅度

研究共纳入 300 例受试者,其中 273 例完成试验,约 9% 受试者在 6 个月时缺少家庭血压结局数据。

主分析结果显示:

  • 三联药方案组平均家庭收缩压下降约 31 mm Hg
  • 标准治疗组下降约 26 mm Hg
  • 调整后组间差异为 -5.8 mm Hg(95% CI,-8.0 到 -3.6;P < .001)

也就是说,原始结论很明确:三联药方案比标准治疗更有效。

那么,缺失数据会不会把这个结论推翻?

研究者进一步做了 tipping point analysis。它的含义不是“重新证明三联药有效”,而是问:

如果那些缺失了结局数据的患者,其真实血压和已观察到的人不一样,那么要不一样到什么程度,才会让原始结论不成立?

分析发现,要改变原始结论,需要满足非常极端的条件之一:

  • 三联药组中缺失数据的患者,真实血压必须高得离谱
  • 或者标准治疗组中缺失数据的患者,真实血压必须低得离谱

换句话说,要想把“三联药更优”的结论推翻,必须假设:

  • 干预组缺失者比同组已观察者糟糕很多
  • 或对照组缺失者比同组已观察者好很多

而这种程度的差异,被作者认为是 implausible,即临床上不太可信。

因此,这项分析最后支持的不是“缺失不重要”,而是:

即便考虑缺失数据,只要我们不接受一个极不现实的缺失情景,三联药优于标准治疗的结论仍然成立。

这正是 tipping point analysis 的典型价值。

八、tipping point analysis 能回答什么,不能回答什么?

它能回答的问题

  1. 原始结论对缺失数据假设是否敏感?
  2. 缺失者需要与非缺失者差异多大,结果才会翻盘?
  3. 哪个方向的偏移最能动摇主分析结论?
  4. 研究结论是“脆弱的”,还是“稳健的”?

它不能回答的问题

  1. 缺失值的真实分布到底是什么
  2. 某个缺失情景到底有多大概率是真的
  3. 它是否能替代主要分析或正式的缺失数据建模
  4. 它是否能自动消除缺失带来的偏倚

九、在论文写作或审稿中,应该怎样解读 tipping point analysis?

我们建议至少抓住以下 4 个层次。

1. 先看主分析结论是什么

如果主分析本来就不稳,那么 tipping point analysis 的解释空间也有限。它始终是围绕主分析结论展开的敏感性分析,而不是脱离主分析单独存在。

2. 再看 tipping point 的方向是否合理

如果原结论是治疗组更好,那么通常就应该考察:

  • 治疗组缺失者更差
  • 对照组缺失者更好

如果方向设错了,敏感性分析的解释价值会明显下降。

3. 最关键的是看“临界点有多远”

不要只盯着“做没做”。真正该问的是:

  • 只要很小偏移就翻盘?
  • 还是要极端偏移才翻盘?

前者提示结果脆弱,后者提示结果稳健。

4. 最后必须回到 plausible 这个词

统计学上找到了 tipping point,并不等于解释结束。

研究者还必须说明:

  • 这个偏移幅度在临床上是否合理
  • 是否有既往证据支持这种差异
  • 缺失者为何可能比非缺失者更差或更好
  • 这种假设是否符合疾病机制与实际随访经验

没有这一步,tipping point analysis 很容易沦为“做了一个图,但不知道该如何解释”。

十、几点启发

1. 它特别适合放在有失访风险的 RCT 中

尤其是主要终点缺失、并且缺失比例不算极低时,tipping point analysis 可以帮助读者更直观地理解研究结论的稳健性。

2. 它最好和主要缺失数据策略配合使用

例如与 multiple imputation、pattern-mixture model 或其他敏感性分析一起报告,而不是孤立使用。

3. 结果表达一定要临床化

不要只写“结果稳健”或“结果不稳健”。更好的表述是:

  • 需要多大幅度的偏移才会翻盘
  • 这一幅度在临床上是否 plausible
  • 支持这一判断的证据基础是什么

4. 审稿时不要只看有没有做,要看有没有解释

一个没有临床解释的 tipping point analysis,统计动作是完成了,但科学解释并没有完成。

十一、Takeaways

缺失数据问题最麻烦的地方,不在于“有缺失”,而在于“我们不知道缺失者到底是什么样的人”。

tipping point analysis 的高明之处就在于:它不假装自己知道真相,而是换一个更务实的问题来问。

假如缺失者真的和已观察者不一样,那么他们得不一样到什么程度,才足以把我们的结论推翻?

如果答案是“只要稍微偏一点就能翻盘”,那就说明结果脆弱;如果答案是“必须偏到临床上几乎不可能”,那主分析结论就更值得信赖。

所以,tipping point analysis 的价值,不是替研究者作判断,而是把判断所需要的关键尺度摆到台面上。

而这正是我们认为临床研究中优秀的敏感性分析应有的样子。

References

Liu, Yan, Kehua Zhou, and Kendra D. Sims. 2025. “Tipping Point Analysis: Assessing the Potential Impact of Missing Data.” Journal Article. JAMA 334 (3): 265–66. https://doi.org/10.1001/jama.2025.7420.
Ojji, Dike B., Abdul Salam, Mahmoud U. Sani, Okechukwu S. Ogah, Aletta E. Schutte, Mark D. Huffman, Rashmi Pant, et al. 2024. “Low-Dose Triple-Pill Vs Standard-Care Protocols for Hypertension Treatment in Nigeria: A Randomized Clinical Trial.” Journal Article. JAMA 332 (13): 1070–79. https://doi.org/10.1001/jama.2024.18080.