大家好,这一期预测模型星球 Journal Club 的分享来自中国医科大学的陈奕含同学。
TRIPOD-AI 的制定
TRIPOD 协作组于 2015 年公布了《个体预后或诊断的多变量预测模型透明报告》(Transparent Reporting of a Multivariable Prediction Model for Individual Prognosis or Diagnosis,TRIPOD),用以规范预测模型的报告过程;随后为进一步提高报告质量评价的客观性及一致性,协作组于 2019 年公布了 TRIPOD 报告规范依从性评判标准,此标准也可作为提高研究报告准确性和完整性的指导文件。
由于人工智能与机器学习的发展,更多研究将人工智能算法应用于预测模型的开发,因此在前期工作的基础上,TRIPOD 协作组于 2024 年发表了名为 TRIPOD-AI:updated guidance for reporting clinical prediction models that use regression or machine learning methods《TRIPOD-AI:报告使用回归或机器学习方法的临床预测模型的更新指南》的文章,取代 TRIPOD 2015,以此来指导预测模型类文章的报告,提高报告规范性。协作组成员在 TRIPOD 2015 的基础上,结合其他报告中的条目与系统评价的结果,构建了一个唯一候选条目的最终列表,进而进行德尔菲专家修订。通过两轮德尔菲专家会议,包含不同领域的专家。此外,还进行了公众参与会议和共识会议,最终确定了 TRIPOD+AI 声明。
TRIPOD+AI 声明条目
TRIPOD+AI 清单包括标题、摘要、引言、方法、开放科学实践、患者和公众参与、结果和讨论等 27 个主要条目。部分条目包含多个子条目,共计 52 个清单子条目。其涵盖了描述预测模型开发、预测模型性能评估(验证)或两者兼而有之的研究。其中,任何项记为 D;E 适用于所有研究,无论是开发预测模型还是评估预测模型的性能。检查表中的 D 项适用于描述预测模型开发的研究,而 E 项适用于评估预测模型性能的研究。对于开发和评估预测模型性能的研究,所有检查表项都适用。
TRIPOD+AI 也为预测模型研究的期刊或会议摘要提供了单独的核查表,并与 TRIPOD+AI 保持一致。另外,PROBAST+AI 用来评估预测模型的质量和偏倚风险。需要注意的是,TRIPOD+AI 中包含的建议是最低限度的报告建议,作者还应提供额外的信息,如在补充材料中报告和引用一些所要求的或补充的信息。TRIPOD+AI 强调了整个清单的公平性,其意味着预测模型的设计和使用方式不会对任何特定群体的个人产生不利的歧视,也不会造成或加剧现有的医疗服务或患者结果方面的不平等。公平性的一个重要方面是确保用于开发或评估预测模型的数据具有代表性和多样性(这些差异应该能够代表预测模型所要使用的人群),并在模型开发过程中承认、处理和缓解数据偏差的限制。为了实现公平目标,清单在背景(项目 3c)、方法(项目 5a、7、8a、8b、9c、12f、14)、结果(项 20b、23a)和讨论(第 25、26 项)中都嵌入了相关内容。
TRIPOD+AI 也添加了开放科学实践的内容,有助于促进透明度、可重复性和研究人员之间的合作。通过注册研究并使研究材料(如协议、数据、代码和预测模型)公开,使其他研究人员可以在新数据中验证研究结果并评估模型性能,以确保模型准确,并评估模型的安全性。在人工智能的背景下,开放科学部分涵盖了资助申报、利益冲突、协议可获得性、研究注册、数据共享、代码共享等方面。
Table 2 预测模型研究报告的 TRIPOD+AI 清单
段落/主题 | 条目 | 开发/评估 | 清单条目 |
---|---|---|---|
标题 | |||
标题 | 1 | D;E | 将研究确定为开发或评估多变量预测模型的性能、目标人群和待预测结果 |
摘要 | |||
摘要 | 2 | D;E | 摘要检查表见 TRIPOD+AI |
介绍 | |||
背景 | 3a | D;E | 解释医疗保健背景(包括无论是诊断性还是预后性)以及开发或评估预测模型的理由,包括对现有模型的参考 |
3b | D;E | 描述照护路径情境下预测模型的目标人群和意向目的,包括其意向用户(例如,医疗保健专业人员、患者、公众等) | |
3c | D;E | 描述任何已知的社会人口群体之间的健康不平等 | |
目的 | 4 | D;E | 明确研究目的,包括研究是否描述了预测模型的开发或验证(或两者兼而有之) |
方法 | |||
数据 | 5a | D;E | 分别描述开发和评估数据集(例如,随机试验,队列,常规护理或登记数据)的数据来源、使用这些数据的理由以及数据的代表性 |
5b | D;E | 指定收集到的参与者数据的日期,包括参与者计提的开始日期和结束日期;并且,如果适用,则结束随访 | |
研究对象 | 6a | D;E | 指定研究设置(例如,初级保健、次级保健、普通人群)的关键要素,包括中心的数量和位置 |
6b | D;E | 描述研究参与者的合格标准 | |
6c | D;E | 给出接受的任何治疗的细节,以及在模型开发或评估过程中如何处理,如果相关 | |
数据准备 | 7 | D;E | 描述任何数据预处理和质量检查,包括在相关的社会人口统计群体中是否类似 |
结局 | 8a | D;E | 明确定义正在预测的结果和时间范围,包括如何评估和何时评估,选择该结果的理由,以及结果评估的方法是否在社会人口统计学群体中保持一致 |
8b | D;E | 如果结果评估需要主观解释,请描述结果评估者的资质和人口学特征 | |
8c | D;E | 报告任何盲目评估预测结局的行为 | |
预测因子 | 9a | D | 描述初始预测因子(例如,文献,以前的模型,所有可用的预测器)的选择,以及在模型建立之前对预测因子的任何预选择 |
9b | D;E | 明确定义所有预测因子,包括如何和何时测量(以及对结果和其他预测因素进行盲法评估的任何行动) | |
9c | D;E | 如果预测器测量需要主观解释,则描述预测器评估师的资格和人口统计学特征 | |
样本量 | 10 | D;E | 说明研究规模是如何达到(分别进行开发和评估)的,并证明研究规模足以回答研究问题。包括任何样本量计算的细节 |
缺失数据 | 11 | D;E | 描述缺失数据是如何处理的。提供省略任何数据的理由 |
分析方法 | 12a | D | 描述数据在分析中如何使用(例如,模型性能的开发和评估),包括是否对数据进行分区,考虑任何样本量要求 |
12b | D | 根据模型的类型,描述在(函数形式,重新标度,转换,或任何标准化)分析中如何处理预测因子 | |
12c | D | 指定模型的类型,基本原理,所有模型构建步骤,包括任何超参数的调整,以及内部验证的方法 | |
12d | D;E | 描述是否以及如何在集群(例如,医院、国家)中处理和量化模型参数值和模型性能的估计中的任何异质性。其他考虑参见 TRIPOD-Cluster | |
12e | D;E | 指定所有用于评估模型性能的(及其理论基础)和用于比较多个模型的(如区分度、校准度、临床实用性等) (如果相关)的指标和图 | |
12f | E | 描述由于模型评估而产生的任何模型更新(例如,重新校准),无论是总体还是针对特定的社会人口群体或设置 | |
12g | E | 对于模型评估,描述如何计算模型预测的(例如,公式、代码、对象、应用程序编程接口等) | |
类别不均衡 | 13 | D;E | 如果使用了类别不平衡方法,说明为什么这样做,如何这样做,以及后续任何重新校准模型或模型预测的方法 |
公平性 | 14 | D;E | 描述任何用于解决模型公平性的方法及其原理 |
模型输出 | 15 | D | 指定预测模型(例如,概率,分类)的输出。为任何分类以及如何确定阈值提供详细信息和理由 |
训练与评估 | 16 | D;E | 确定开发和评估数据在医疗保健环境、合格标准、结果和预测因素之间的任何差异 |
伦理批准 | 17 | D;E | 命名批准该研究的机构研究委员会或伦理委员会,并描述参与者知情同意或伦理委员会放弃知情同意的情况 |
开放科学 | |||
资助 | 18a | D;E | 给出本研究的资金来源和资助者的角色 |
利益冲突方 | 18b | D;E | 声明所有作者的利益冲突和财务披露 |
计划书 | 18c | D;E | 说明研究方案可在何处获取或声明方案未准备好 |
注册 | 18d | D;E | 为研究提供注册信息,包括注册名和注册号,或者说明研究未进行注册 |
数据共享 | 18e | D;E | 详细说明研究数据的可获得性 |
代码共享 | 18f | D;E | 提供分析代码可用性的详细信息 |
患者和公众参与 | |||
患者和公众参与 | 19 | D;E | 在研究的设计、进行、报告、解释或传播过程中提供任何患者和公众参与的详细信息,或陈述没有参与的情况 |
结果 | |||
参与者 | 20a | D;E | 描述研究过程中参与者的流动情况,包括有结果和没有结果的参与者人数,如果适用,则对随访时间进行总结。一张图可能会有帮助 |
20b | D;E | 报告每个数据源或设置的总体和适用的特征,包括关键日期、关键预测因素(包括人口统计特征)、接受的治疗、样本量、结果事件数、随访时间和缺失数据的数量。一张表可能是有帮助的。报告关键人口群体之间的差异 | |
20c | E | 对于模型评估,展示了与开发数据分布的重要预测因子(人口统计学,预测因素和结果)的比较 | |
模型开发 | 21 | D;E | 指定每个分析(例如,模型开发、超参数调优、模型评估等)中参与者和结果事件的数量 |
模型规范 | 22 | D | 提供完整预测模型(例如,公式、代码、对象、应用程序编程接口等)的详细信息,允许在新的个体中进行预测,并允许第三方评估和实施,包括访问或重用(例如,免费的,专有的)的任何限制 |
模型表现 | 23a | D;E | 报告模型性能估计的置信区间,包括对任何关键子组的(例如,社会人口学)。考虑情节来辅助呈现 |
23b | D;E | 如果检查,报告了跨集群的模型性能的任何异质性的结果。详情见 TRIPOD-Cluster | |
模型更新 | 24 | E | 报告任何模型更新的结果,包括更新后的模型和随后的性能 |
讨论 | |||
解释 | 25 | D;E | 对主要结果进行总体解释,包括目标和先前研究背景下的公平问题 |
局限性 | 26 | D;E | 讨论研究(如非代表性样本、样本量、过拟合、缺失数据等)的任何局限性及其对任何偏倚、统计不确定性和可推广性的影响 |
该模型在当前护理背景下的可用性 | 27a | D | 描述在实现预测模型时,应该如何评估和处理质量差或不可用的输入数据(例如,预测值) |
27b | D | 指定在处理输入数据或使用模型时是否需要用户进行交互,以及需要用户具备何种水平的专业知识 | |
27c | D;E | 讨论了未来研究的下一步工作,特别关注模型的适用性和通用性 |
Table 3 期刊或会议摘要中预测模型研究的必要报告项目
段落和条目 | 清单表条目 |
---|---|
标题 | |
1 | 将研究确定为开发或评估多变量预测模型的性能、目标人群和待预测结果 |
背景 | |
2 | 对医疗保健背景进行简要解释,并为开发或评估所有模型的性能提供理论依据 |
目的 | |
3 | 明确研究目标,包括研究是否描述模型开发、评价,或者两者兼而有之 |
方法 | |
4 | 描述数据的来源 |
5 | 描述数据收集的合格标准和地点 |
6 | 明确模型所要预测的结果,包括预后模型情况下预测的时间范围 |
7 | 说明模型类型,总结模型建立步骤,以及内部验证的方法 |
8 | 明确用于评估模型性能的度量指标(如区分度、校准度、临床实用性等) |
结果 | |
9 | 报告参与人数和结果事件 |
10 | 汇总最终模型中的预测因子 |
11 | 报告模型性能估计(带置信区间) |
讨论 | |
12 | 对主要结果进行了整体解释 |
注册 | |
13 | 给出注册表或存储库的注册号和名称 |
实例
1 标题:将研究确定为开发或评估多变量预测模型的性能、目标人群和待预测结果。D;E
信息丰富的标题有助于潜在读者和系统审阅者识别预测模型研究;报告信息丰富的标题,提供有关目标人群和模型预测结果的关键信息。
实例 1 的标题为《Multimodal Machine Learning-Based Marker Enables Early Detection and Prognosis Prediction for Hyperuricemia:基于多模态机器学习的标志物可以实现高尿酸血症的早期检测和预后预测》,不能直接从标题得知是模型的开发、验证还是二者兼有的研究,“预测”表明该研究是一篇临床预测模型类文章,“高尿酸血症”显示预测结局为发生高尿酸血症,但并未在标题中表明研究的目标人群,根据正文内容可知其目标人群为医院就医的患者,无其他特殊限定。但若研究人群为罹患某一疾病或具备某一特征的人群,则应在标题中体现,能进一步反映出模型的适用范围和研究的临床价值。
2 摘要:摘要检查表见 TRIPOD+AI 摘要清单。D;E
报告针对TRIPOD+AI for Abstracts检查表中每个项目的摘要。
根据 TRIPOD+AI for Abstracts,在采用结构式摘要,报告研究背景、目的、方法(数据来源、收集情况、预测结果、模型类型及性能度量指标)、结果(样本量和结果事件、预测因子和模型性能)、讨论及注册情况。实例 1 对研究背景略做阐述,并报告数据情况(英国生物库与南方医院队列)、结局事件(ISHUA)、模型性能(报告了相关数值),简略提及基因与临床数据两大类预测因子、但未提及度量指标类别及注册情况。
3 背景
3.1:解释医疗保健背景(包括无论是诊断性还是预后性)以及开发或评估预测模型的理由,包括对现有模型的参考。D;E
描述打算使用或需要模型的医疗保健环境;在现有预测模型可用的情况下,提供开发新模型的明确理由;对于评估现有模型的研究,提供评估的理由,并提供所有正在评估的模型的参考资料。
实例 2《Use of Machine Learning Models to Predict Death After Acute Myocardial Infarction:利用机器学习模型预测急性心肌梗死后死亡》中对于准备开发的模型需求和明确理由做出了清晰叙述。
3.2:描述照护路径情境下预测模型的目标人群和意向目的,包括其意向用户(例如,医疗保健专业人员、患者、公众等)。D;E
描述谁是开发或评估模型的目标人群,例如,特定年龄、特定国家/地区或患有特定疾病的人;描述模型的预期目的,包括模型旨在支持的临床决策或指导(例如,转诊进行进一步检测或入院,分诊、开始治疗或改变生活方式)以及该模型在护理路径中的预期使用点;描述该模型的预期用户是谁,以及该模型是否适用于医疗保健专业人员、患者、公众或其他。
实例 3《Explainable machine-learning predictions for the prevention of hypoxaemia during surgery:可解释的机器学习预测用于预防手术中的低氧血症》一文中在背景中阐述了希望应用的医疗群体与应用场景。
3.3:描述任何已知的社会人口群体之间的健康不平等。D;E
在打算使用该模型的医疗保健环境中,描述目标人群中社会人口群体之间的任何已知健康不平等(以及支持健康不平等的引文)。
4 目的:明确研究目的,包括研究是否描述了预测模型的开发或验证(或两者兼而有之)。D;E
提供研究所有目标的明确陈述,描述研究是开发预测模型、评估预测模型的性能,还是同时评估两者。
实例4《Construction of a risk prediction model for detecting postintensive care syndrome—mental disorders:重症监护后综合征-精神障碍风险预测模型的构建》在背景部分明确提及该研究构建模型的类型。
5 数据
5.1:分别描述开发和评估数据集(例如,随机试验,队列,常规护理或登记数据)的数据来源、使用这些数据的理由以及数据的代表性。D;E
提供用于模型开发和模型性能评估的数据来源的描述,包括数据是否(例如)来自随机试验、队列、登记处或电子常规医疗记录;说明研究是使用现有数据还是前瞻性地收集新数据以用于预测模型研究;使用现有数据的位置(即它们最初是出于不同的目的收集的),提供使用这些数据的理由,并评论这些数据的适用性(特别是如果数据是从不同的环境或国家/地区使用到预期目标人群的)和这些数据相对于预期目标人群和背景的代表性;应为所有数据集提供数据源的描述,并单独用于开发和评估;如果使用了任何合成数据,请说明原因,并提供有关如何创建合成数据(和代码,参见第 18f 项)并在研究中使用的所有详细信息。
实例1《Multimodal Machine Learning-Based Marker Enables Early Detection and Prognosis Prediction for Hyperuricemia:基于多模态机器学习的标志物可以实现高尿酸血症的早期检测和预后预测》。
5.2:指定收集到的参与者数据的日期,包括参与者计提的开始日期和结束日期;并且,如果适用,则结束随访。D;E
指定选择参与者或使用数据的期间的开始和结束日期;对于预测预后的模型,随访持续时间很重要,因此请报告随访结束的日期。
实例5《Machine learning-based prediction of composite risk of cardiovascular events in patients with stable angina pectoris combined with coronary heart disease: development and validation of a clinical prediction model for Chinese patients:基于机器学习的稳定型心绞痛合并冠心病患者心血管事件复合风险预测:中国患者临床预测模型的开发与验证》。
6 参与者
6.1:明确研究环境的关键要素(例如,初级保健、二级保健、一般人群),包括中心的数量和位置。D;E
描述医疗保健场景,以及研究参与者的招募地点;报告研究的地理位置(至少是国家/地区)和中心(包括中心的数量)。
实例 6《Development and validation of a prediction rule for estimating gastric cancer risk in the Chinese high-risk population: a nationwide multicentre study:在中国高危人群中建立和验证胃癌风险预测规则:一项全国性多中心研究》。
6.2:描述研究参与者的合格标准。D;E
应报告参与者的资格标准,以了解预测模型的潜在适用性和普遍性;这包括报告连续变量的任何限制,例如,用于定义纳入参与者资格的年龄范围。
实例 4《Construction of a risk prediction model for detecting postintensive care syndrome—mental disorders:重症监护后综合征-精神障碍风险预测模型的构建》。
6.3:给出接受的任何治疗的细节,以及在模型开发或评估过程中如何处理,如果相关。D;E
应报告在随访之前或开始时接受的任何治疗,以及在预测模型的开发或评估期间是否以及如何处理这些治疗(如果相关);在使用预测模型和测量结果之间接受的任何治疗,这可能会改变结果的概率,应报告(如果相关)。
实例 7《Utility of Machine Learning Algorithms in Predicting Preoperative Lymph Node Metastasis in Patients With Rectal Cancer Based on Three-Dimensional Endorectal Ultrasound and Clinical and Laboratory Data:基于三维直肠腔内超声和临床及实验室数据的机器学习算法在预测直肠癌患者术前淋巴结转移中的应用》。
7 数据准备:描述任何数据预处理和质量检查,包括在相关的社会人口统计群体中是否类似。D;E
描述任何数据清理步骤,包括任何特征工程、原始数据转换、特征缩减和数据质量检查。所有用于数据清理的代码都应该可用(参见第18f项);对于使用来自多个来源的数据(例如,来自不同研究、队列或注册库的数据)的分析,请描述任何协调(例如,结果和预测因子);确认关键社会人口群体的所有数据预处理/数据清理步骤是否相似(如果相关);如果数据预处理/数据清理步骤广泛,考虑在补充材料中报告此信息。
实例 8《Machine Learning for Predicting Risk and Prognosis of Acute Kidney Disease in Critically Ill Elderly Patients During Hospitalization: Internet-Based and Interpretable Model Study:机器学习预测老年危重症患者住院期间急性肾脏病的风险和预后:基于互联网和可解释模型的研究》。
8 结局
8.1:明确定义正在预测的结果和时间范围,包括如何评估和何时评估,选择该结果的理由,以及结果评估的方法是否在社会人口统计学群体中保持一致。D;E
对于诊断预测模型,应明确定义结果,包括是否使用(广泛接受的)参考标准(真实情况)来确定结果的存在与否;对于预后模型,即预测未来结果的模型,作者应报告结果预测的时间范围。例如,预测心胸手术后28天的死亡风险,或骨质疏松症患者10年的骨折风险。此外,应报告随访期间结果评估的频率;如果使用标准定义,例如使用ICD1代码,则应说明和引用;应报告社会人口群体之间结果评估的任何差异;在某些情况下,可能需要确认没有使用预测因子来定义结果或作为结果的代理。
实例 5《Machine learning-based prediction of composite risk of cardiovascular events in patients with stable angina pectoris combined with coronary heart disease: development and validation of a clinical prediction model for Chinese patients:基于机器学习的稳定型心绞痛合并冠心病患者心血管事件复合风险预测:中国患者临床预测模型的开发与验证》。
8.2:如果结果评估需要主观解释,请描述结果评估者的资质和人口学特征。D;E
对于需要主观解释的结局(例如,解释影像学检查的结果,描述结局评价者的数量、资格和人口统计学特征);如果结果的测量和解释需要(额外的)培训或具体说明,则应报告这些;如果内容广泛,请考虑在补充材料中报告此信息。
实例 7《Utility of Machine Learning Algorithms in Predicting Preoperative Lymph Node Metastasis in Patients With Rectal Cancer Based on Three-Dimensional Endorectal Ultrasound and Clinical and Laboratory Data:基于三维直肠腔内超声和临床及实验室数据的机器学习算法在预测直肠癌患者术前淋巴结转移中的应用》。
8.3:报告任何盲目评估预测结局的行为。D;E
预测的结果应该对预测因子的信息不知情地进行评估——特别是与需要主观解释的结果相关,从而避免数据(标签)泄漏;如果合适,作者应描述结果评估者可以获得哪些信息,并报告任何对结果评估盲法的具体行动。
9 预测因子
9.1:描述初始预测因子(例如,文献,以前的模型,所有可用的预测因子)的选择,以及在模型建立之前对预测因子的任何预选择。D
提供有关如何考虑将初始预测因子列表包含在模型构建中的详细信息,以及它们是根据文献的(系统)回顾、临床输入(领域专家)选择的,或者只是使用可用数据中的所有预测因子;如果在模型构建之前进行了任何预测因子的预选,然后提供此操作的详细信息。例如,由于大量缺失数据而在模型构建中遗漏了预测变量,或者预测变量被认为与预测结果不合理(临床)相关;初始预测变量的列表可能很广泛,在这些情况下,建议在补充材料中报告这些预测变量。
9.2:明确定义所有预测因子,包括如何和何时测量(以及对结果和其他预测因素进行盲法评估的任何行动)。D;E
应明确定义建模中包含的所有预测变量,以及度量单位和分类预测变量的所有类别,以便读者和其他人可以复制、实施或评估模型的性能;有关如何以及何时测量预测变量值的详细信息。请注意,预测变量应在打算使用模型之前或之时进行测量;对于需要主观解释的预测变量,将其盲解释为建模中考虑的其他预测变量的值可能很重要(例如,避免数据泄漏)。作者应报告任何使预测变量测量的评估对其他预测变量不知情的行为;特别是对于诊断模型,预测变量的测量应在不了解个体结果的情况下进行,因为这可能会人为地夸大预测变量与结果之间的关联。作者应报告任何使预测因子测量值的评估对结果值视而不见的操作;在某些情况下,预测因子的数量可能非常大,因此在主要手稿中报告它们都是无益的,在这些情况下,明确定义所有预测因子仍然很重要,应考虑在补充材料中报告这一点。
实例 9《A clinical prediction model based on interpretable machine learning algorithms for prolonged hospital stay in acute ischemic stroke patients: a real-world study:基于可解释性机器学习算法的急性缺血性卒中患者住院时间延长的临床预测模型:真实世界研究》。
9.3:如果预测因子测量需要主观解释,则描述预测因子评估者的资格和人口统计学特征。D;E
对于需要主观解释的预测因子(例如,解释影像学检查的结果),应报告预测因子评估者的资格和人口统计学特征;如果测量和解释需要(额外)培训或具体说明,则应报告这些。这可以在补充材料中报告。
10 样本量:说明研究规模是如何达到(分别进行开发和评估)的,并证明研究规模足以回答研究问题。包括任何样本量计算的细节。D;E
描述样本量是如何确定的—这应该单独进行,以确定模型开发所需的样本量和评估模型性能所需的样本量,无论数据是前瞻性收集的还是使用现有数据;提供任何样本量计算中使用的详细信息和所有估计值;如果没有进行正式的样本量计算,例如,使用了所有可用数据,提供数据大小是否足以回答研究问题的理由。
11 缺失数据:描述缺失数据是如何处理的。提供省略任何数据的理由。D;E
数据缺失是一个无处不在的问题。作者应报告正在考虑包含在模型中的每个预测变量的缺失值数量;应报告缺失值的处理情况,包括对缺失原因的任何假设;如果个体(或预测变量)由于缺失值而被遗漏,则应报告此情况,并给出原因;如果已估算缺失值,那么应报告插补任何缺失值的方法的完整详细信息;如果已插补缺失值,请确认它是针对训练和任何测试数据单独完成的(即避免泄漏)。
实例 2《Use of Machine Learning Models to Predict Death After Acute Myocardial Infarction:利用机器学习模型预测急性心肌梗死后死亡》。
12 分析方法
12.1:描述数据在分析中如何使用(例如,模型性能的开发和评估),包括是否对数据进行分区,考虑任何样本量要求。D
描述如何使用可用数据来开发模型和评估模型性能,包括是否以及如何对数据进行分区,以及对数据进行分区的原因(例如,模型开发、超参数调整、评估模型性能、内部和外部交叉验证);如果数据已分区,请报告在分区过程中是否考虑了样本量要求(参见第10项), 以及分区数据的大小是否足以进行分析和回答研究问题;如果数据已经被划分为训练(包括任何超参数调优数据)和测试数据,请确认没有数据泄漏;如果数据包含来自同一个体的多个记录或样本,并且数据已分区为训练(包括任何超参数优化数据)和测试数据,请确认任何分区数据中没有个体泄漏,如果没有,请如何描述在分析中如何处理这种情况(参见第12c项)。
实例 9《Machine Learning for Predicting Risk and Prognosis of Acute Kidney Disease in Critically Ill Elderly Patients During Hospitalization: Internet-Based and Interpretable Model Study:机器学习预测老年危重症患者住院期间急性肾脏病的风险和预后:基于互联网和可解释模型的研究》。
12.2:根据模型的类型,描述在(函数形式,重新标度,转换,或任何标准化)分析中如何处理预测因子。D
对于在分析过程中转换(即重新缩放或标准化)的任何预测变量,请描述这是如何完成的;对于任何已进行类别折叠的分类预测变量,例如,由于样本量小/结果事件太少,请提供详细信息和原因。
12.3:指定模型的类型,基本原理,所有模型构建步骤,包括任何超参数的调整,以及内部验证的方法。D
明确说明正在开发的模型类型(例如,逻辑回归、Cox回归、随机森林、神经网络),并提供使用每种模型构建方法的基本原理——考虑预测结果的类型以及预测模型在实践中将如何实施;对于每个模型,清楚地描述模型构建中的所有步骤,包括任何超参数优化、已优化的超参数以及调整方式。如果应用了许多模型构建方法,并且字数限制禁止完整描述,则使用补充材料提供详细信息;对于正在开发多个模型的研究(例如,使用不同的模型构建方法),清楚地描述选择哪个模型的标准(如果有),请参阅关于模型性能的第12e项和第23项);模型开发过程中的内部验证方法(评估模型性能)应该清楚地描述,例如,是否使用了k折叠交叉验证或引导。阐明在内部评估方法期间是否重放了所有模型构建步骤(包括超参数调整);清楚地描述用于检查模型稳定性(例如,bootstrapping)(例如,在预测因子选择、预测性能和个体预测方面));如果数据包含来自同一个体的多个记录或样本,描述在模型构建和内部验证中如何处理此问题(例如,如果使用K折交叉验证,请确认某个人的所有记录/样本是否都包含在同一折中(例如,避免数据泄露)。
实例 10《Construction of a clinical prediction model for complicated appendicitis based on machine learning techniques:基于机器学习技术的复杂性阑尾炎临床预测模型构建》。
12.4:描述是否以及如何在跨集群(例如,医院、国家)中处理和量化模型参数值和模型性能的估计中的任何异质性。其他考虑参见TRIPOD-Cluster。D;E
如果在模型开发或模型性能评估期间,分析考虑了数据中的任何聚类(例如,通过组合来自多项研究的个体参与者数据,或按医疗中心/医院或国家聚类的数据),则应清楚地描述用于解释聚类的基本原理和方法;对于预测模型研究的具体报告建议,这些研究考虑了模型参数值的聚类和异质性,并且性能,作者应查阅TRIPOD-Cluster检查表。
12.5:指定所有用于评估模型性能的(及其理论基础)和用于比较多个模型的(如区分度、校准度、临床实用性等) (如果相关)的指标和图。D;E
报告用于评估模型性能的所有度量。通常预计至少会提供模型判别和校准(包括校准图);如果预测模型预测的是事件发生时间结果,则清楚地描述用于解释事件发生时间性质(即删失)的措施和方法。同样,还应说明对任何竞争风险的处理(如果适用);对于预后模型,报告评估模型预测性能的所有时间点;报告用于图形显示模型性能的方法,例如校准图(具有平滑的校准曲线)和决策曲线;如果正在比较多个模型,即,与现有模型进行比较或比较多种建模方法,那么应清楚地解释用于比较这些模型的方法,以及对卓越性能做出任何判断的标准。
实例 5《Machine learning-based prediction of composite risk of cardiovascular events in patients with stable angina pectoris combined with coronary heart disease: development and validation of a clinical prediction model for Chinese patients:基于机器学习的稳定型心绞痛合并冠心病患者心血管事件复合风险预测:中国患者临床预测模型的开发与验证》。
12.6:描述由于模型评估而产生的任何模型更新(例如,重新校准),无论是总体还是针对特定的社会人口群体或设置。E
如果模型在验证后更新,例如重新校准或重新拟合——无论是在整个队列中还是在特定的社会人口群体中,请提供有关用于更新模型的方法的详细信息。
12.7:对于模型评估,描述如何计算模型预测的(例如,公式、代码、对象、应用程序编程接口等)。E
对于在单独的数据集中评估现有模型的研究(即外部验证研究),请提供有关如何计算模型的单个预测的详细信息。如果模型不是免费/公开可用的,请解释预测是如何获得的;如果正在评估回归模型方程,请提供该方程的详细信息(例如,考虑提出此方程,提供对开发该方程的原始研究的引用);对于评估没有方程的预测模型(例如,神经网络、随机森林)的研究,请提供有关如何进行预测的详细信息,例如,代码、软件对象、API,以及在哪里可以找到这些信息(即URL、DOI);如果模型的单个预测用于创建风险组或分类(在模型开发中未指定),则应报告有关如何以及为何执行此操作的详细信息(参见第15项)。
实例 5《Machine learning-based prediction of composite risk of cardiovascular events in patients with stable angina pectoris combined with coronary heart disease: development and validation of a clinical prediction model for Chinese patients:基于机器学习的稳定型心绞痛合并冠心病患者心血管事件复合风险预测:中国患者临床预测模型的开发与验证》。
13 类别不均衡:如果使用了类别不平衡方法,说明为什么这样做,如何这样做,以及后续任何重新校准模型或模型预测的方法。D;E
如果使用了类不平衡方法(例如,欠/超采样、SMOTE),则提供这样做的理由,以及如何做到这一点——考虑到对样本量的任何影响(例如,对于欠采样方法);不平衡校正对模型校准有影响,得出的概率估计值太高(这也对定义任何风险组有影响),描述了用于重新校准模型或模型预测的方法。
实例 11《机器学习基于不平衡数据预测急性新发缺血性卒中患者院内死亡模型研究》。
14 公平性:描述任何用于解决模型公平性的方法及其原理。D;E
公平性是指确保预测模型不歧视个人或群体,例如基于种族、性别、年龄等个人属性,所有用于解决公平性的方法都应清楚地解释其基本原理;在开发模型和评估其性能时,确保数据包含代表性群体(目标人群)非常重要,研究人员应尝试证明这一点;如果预测模型是使用代表性不足的群体或未包括的特定群体的数据开发的,那么需要在代表性数据中对这些群体进行评估,以评估这些群体中的模型,以提高对发展和评价数据之外的更多个体群体的普遍性。
15 模型输出:指定预测模型(例如,概率,分类)的输出。为任何分类以及如何确定阈值提供详细信息和理由。D
大多数模型输出个体的概率估计,而一些模型将输出转化为分类(例如,分为低风险或高风险组),这应该明确说明。如果已经创建了分类或风险组,则应在护理路径的背景下这样做的基本原理以及这些风险组如何为任何临床决策提供信息;对于生成分类或风险组的模型,应明确报告,并应指定任何阈值(例如,定义组的估计概率范围)(这些是否基于文献, 临床指南、统计考虑或 ad-hoc);如果已经提供了单个预测模型输出的不确定性区间,则提供有关如何完成此操作的详细信息(例如,使用参数估计的方差-协方差矩阵或共形预测)。
实例 1《Multimodal Machine Learning-Based Marker Enables Early Detection and Prognosis Prediction for Hyperuricemia:基于多模态机器学习的标志物可以实现高尿酸血症的早期检测和预后预测》。
16 训练与评估:确定开发和评估数据在医疗保健环境、合格标准、结果和预测因素之间的任何差异。D;E
在一个环境、中心或国家开发的预测模型不一定对不同的环境、中心或国家有用。来自不同来源的数据之间的资格标准、结果和预测因子定义可能(故意)不同。描述开发数据与用于评估模型性能的数据之间的任何差异,有助于理解和解释模型在原始模型开发数据上下文中的性能和泛化性。
17 伦理批准:命名批准该研究的机构研究委员会或伦理委员会,并描述参与者知情同意或伦理委员会放弃知情同意的情况。D;E
如果该研究没有机构研究委员会或伦理批准,那么请明确说明,并说明原因。
例 7《Utility of Machine Learning Algorithms in Predicting Preoperative Lymph Node Metastasis in Patients With Rectal Cancer Based on Three-Dimensional Endorectal Ultrasound and Clinical and Laboratory Data:基于三维直肠腔内超声和临床及实验室数据的机器学习算法在预测直肠癌患者术前淋巴结转移中的应用》。
18 开放科学
18.1 资助:给出本研究的资金来源和资助者的角色。D;E
提供有关研究是否获得资助的详细信息,并提供有关资助者在研究中的作用的任何详细信息;为所有作者提供任何其他资金来源。
实例 5《Machine learning-based prediction of composite risk of cardiovascular events in patients with stable angina pectoris combined with coronary heart disease: development and validation of a clinical prediction model for Chinese patients:基于机器学习的稳定型心绞痛合并冠心病患者心血管事件复合风险预测:中国患者临床预测模型的开发与验证》。
18.2 利益冲突方:声明所有作者的利益冲突和财务披露。D;E
披露读者可能认为相关或可能影响研究设计、实施、解释或报告的任何作者关系或活动。
实例 5《Machine learning-based prediction of composite risk of cardiovascular events in patients with stable angina pectoris combined with coronary heart disease: development and validation of a clinical prediction model for Chinese patients:基于机器学习的稳定型心绞痛合并冠心病患者心血管事件复合风险预测:中国患者临床预测模型的开发与验证》。
18.3 计划书:说明研究方案可在何处获取或声明方案未准备好。D;E
提供有关研究方案可用性的所有详细信息,包括可以找到研究方案的位置(例如,出版物详细信息、补充材料、在存储库中公开提供,例如在开放科学框架上),包括URL或DOI;明确说明是否未制定或未公开提供研究方案(以及原因);如果与研究方案中规定的内容有任何显着偏差, 提供偏差的摘要和原因。
实例 12《Development and validation of a multimodal feature fusion prognostic model for lumbar degenerative disease based on machine learning: a study protocol:基于机器学习的腰椎退行性疾病多模态特征融合预后模型的开发与验证:研究方案》。
18.4 注册:为研究提供注册信息,包括注册名和注册号,或者说明研究未进行注册。D;E
如果研究已注册(例如,在clinicaltrials.gov上,开放科学框架),请提供有关注册号、注册名称和注册链接(包括任何DOI)的详细信息;明确说明研究是否尚未注册。
18.5 数据共享:详细说明研究数据的可获得性。D;E
提供有关研究数据可用性的详细信息,包括可以找到数据的位置(例如,公共存储库、URL、DOI)、如何检索数据、获取和使用数据的任何条件或限制。任何共享数据都应附带数据字典;如果无法共享数据,请提供原因;避免使用陈词滥调,例如“根据合理请求提供数据”,而不指定构成合理请求的条件。
18.6 代码共享:提供分析代码可用性的详细信息▲。D;E
提供有关分析代码可用性的所有详细信息(以及如何运行代码的文档),包括可以找到代码的位置(例如,代码存储库、DOI、链接)、如何检索代码、应报告获取和使用代码的任何条件或许可(和版本);分析代码是复制(原则上)研究的所有报告结果和发现所需的所有代码(包括数据清理)。应报告(原则上)重现研究结果所需的软件和任何软件包(包括任何版本号)。在某些情况下,可能需要报告有关计算环境的更多详细信息(例如,硬件、操作系统、CPU、RAM)。
19 患者和公众参与:在研究的设计、进行、报告、解释或传播过程中提供任何患者和公众参与的详细信息,或陈述没有参与的情况。D;E
描述患者或公众如何参与研究及其结果的规划、设计、实施、报告或传播;研究结果是否向患者或公众展示?;考虑使用 GRIPP2 声明来报告患者和公众对研究的参与情况;如果没有患者或公众参与研究的任何方面,请明确说明。
20 参与者
20.1:描述研究过程中参与者的流动情况,包括有结果和没有结果的参与者人数,如果适用,则对随访时间进行总结。一张图可能会有帮助。D;E
流程图可用于描述参与者通过研究的流程,其中流程图的入口点是参与者的来源,然后后续步骤可以与资格标准、后续行动(如果适用)相关。和数据可用性;流程图中要呈现的其他有用信息包括缺失值的参与者数量和结果事件的数量;对于延迟参考测试的预后或诊断研究,应报告随访时间的摘要(例如,中位随访和范围)。
实例 9《Machine Learning for Predicting Risk and Prognosis of Acute Kidney Disease in Critically Ill Elderly Patients During Hospitalization: Internet-Based and Interpretable Model Study:机器学习预测老年危重症患者住院期间急性肾脏病的风险和预后:基于互联网和可解释模型的研究》。
20.2:报告每个数据源或设置的总体和适用的特征,包括关键日期、关键预测因素(包括人口统计特征)、接受的治疗、样本量、结果事件数、随访时间和缺失数据的数量。一张表可能是有帮助的。报告关键人口群体之间的差异。D;E
报告(可能使用表格)使用的所有数据集的摘要,包括结果的分布、预测因子(例如,平均值/中位数、标准差/四分位数范围、频率)、接受的任何治疗、样本量(和结果事件的数量、随访时间的摘要,以及每个预测因子的缺失值的数量和比例;如果相关, 报告感兴趣的关键人口统计群体之间的任何差异可能很有用。
实例 7《Utility of Machine Learning Algorithms in Predicting Preoperative Lymph Node Metastasis in Patients With Rectal Cancer Based on Three-Dimensional Endorectal Ultrasound and Clinical and Laboratory Data:基于三维直肠腔内超声和临床及实验室数据的机器学习算法在预测直肠癌患者术前淋巴结转移中的应用》。
20.3:对于模型评估,展示了与开发数据分布的重要预测因子(人口统计学,预测因素和结果)的比较。E
对于评估现有模型性能的研究(包括模型开发研究中的模型),提供重要变量(例如,平均值/中位数、标准差/四分位数范围、频率)分布的比较,例如人口统计学、模型中的预测变量和结果,包括缺失值的比例。这可能最好以表格形式呈现,并考虑按结果状态报告。
实例 6《Development and validation of a prediction rule for estimating gastric cancer risk in the Chinese high-risk population: a nationwide multicentre study:在中国高危人群中建立和验证胃癌风险预测规则:一项全国性多中心研究》。
21 模型开发:指定每个分析(例如,模型开发、超参数调优、模型评估等)中参与者和结果事件的数量。D;E
应为每次分析(即每个模型开发、每个模型评估)报告样本量(包括结果事件的数量),因为它们在预测模型研究的不同分析中通常会有所不同(例如,在数据分区、模型超参数调整之后),尤其是在存在缺失数据的情况下;如果数据包含单个报告的多个样本或记录,也报告个体数量。
22 模型规范:提供完整预测模型(例如,公式、代码、对象、应用程序编程接口等)的详细信息,允许在新的个体中进行预测,并允许第三方评估和实施,包括访问或重用(例如,免费的,专有的)的任何限制★。D
预测模型开发研究的“产品product”是预测模型。因此,提供有关模型的详细信息以及如何使用它来预测新个体非常重要。例如,为回归模型提供方程,对于使用模型无法“写下”为方程的方法开发的模型,提供有关代码、软件对象或API可用性的详细信息,以便其他人可以在自己的数据中评估此模型,或在日常实践中实施它;如果开发了多个模型, 然后提供有关所有模型可用性的详细信息;解释如何使用该模型允许其他人对新个体进行预测;提供任何硬件要求和软件(和软件包)的详细信息,以实现第三方测试、实施和监控;如果模型无法公开可用(例如,出于商业原因),则应明确报告,并报告访问模型以计算新个体和第三方评估的预测的任何条件。
实例 6《Development and validation of a prediction rule for estimating gastric cancer risk in the Chinese high-risk population: a nationwide multicentre study:在中国高危人群中建立和验证胃癌风险预测规则:一项全国性多中心研究》。
23 模型表现
23.1:报告模型性能估计的置信区间,包括对任何关键子组的(例如,社会人口学)。考虑情节来辅助呈现。D;E
应将第 12e 项中描述的所有模型性能度量的估计值与置信区间一起呈现;报告总体和任何感兴趣关键群体(例如,性别、种族)(例如,作为公平性检查的一部分)的模型性能估计值,以及置信区间;使用图表来呈现和辅助评估,例如校准图(具有平滑的校准曲线和预测值的分布)和决策曲线;报告所有评估的性能估计值(例如,在开发数据中;在评估数据中;来自内部验证过程等),包括检查的每个时间点(用于预后模型);报告模型稳定性的任何检查,例如,在自举样本中开发的模型中的性能估计和单个预测的可变性方面;清楚地指出哪些数据已被用于呈现每个性能估计。
实例 13《Interpretable machine learning-based clinical prediction model for predicting lymph node metastasis in patients with intrahepatic cholangiocarcinoma:可解释的基于机器学习的临床预测模型用于预测肝内胆管癌患者的淋巴结转移》。
23.2:如果检查,报告了跨集群的模型性能的任何异质性的结果。详情见TRIPOD-Cluster。D;E
如果模型性能的评估考虑了数据中的任何聚类(例如,来自组合来自多项研究的个体参与者数据,或按中心/医院或国家聚类的数据),则应报告结果以及置信区间(参见第23a项);关预测模型研究的具体报告建议,这些研究考虑了模型性能的聚类和异质性, 作者应查阅TRIPOD-cluster清单。
24 模型更新:报告任何模型更新的结果,包括更新后的模型和随后的性能。E
如果预测模型在验证后进行了更新(例如,重新校准、重新拟合),则应报告更新后的预测模型的详细信息,以便进行第三方评估和实施,包括对访问或重复使用的任何限制(见第22项);应报告更新模型的性能(参见第23a项,可能第23b项)。
25 解释:对主要结果进行总体解释,包括目标和先前研究背景下的公平问题。D;E
对研究结果的解释将研究结果置于其他证据的背景下。如果存在现有模型,则在这些现有研究的背景下讨论结果;对于评估现有预测模型性能的研究,如果现有研究已经评估了模型的性能,那么讨论和总结这些结果并将其置于上下文中非常重要;确保对结果的解释不会超出模型开发和评估报告的结果,以防止过度解释或“旋转”;了解模型在评估数据中的性能与该模型的任何其他评估研究中模型的性能进行比较是有用的。当结果出现分歧时,应讨论模型性能差异的可能原因。
实例 13《Interpretable machine learning-based clinical prediction model for predicting lymph node metastasis in patients with intrahepatic cholangiocarcinoma:可解释的基于机器学习的临床预测模型用于预测肝内胆管癌患者的淋巴结转移》。
26 局限性:讨论研究(如非代表性样本、样本量、过拟合、缺失数据等)的任何局限性及其对任何偏倚、统计不确定性和可推广性的影响。D;E
承认局限性是任何科学论文的一个重要方面——可以指研究设计、实施或分析的任何方面。对研究局限性进行有意义的讨论,考虑与分析中使用的数据的代表性、样本量、过度拟合和缺失数据/数据质量相关的任何问题。
实例 13《Interpretable machine learning-based clinical prediction model for predicting lymph node metastasis in patients with intrahepatic cholangiocarcinoma:可解释的基于机器学习的临床预测模型用于预测肝内胆管癌患者的淋巴结转移》。
27 该模型在当前照护背景下的可用性
27.1:描述在实现预测模型时,应该如何评估和处理质量差或不可用的输入数据(例如,预测值)。D
作者应该评论如何在模型打算用作日常实践中护理路径的一部分时处理不可用的预测变量值。还应评估在打算使用模型时估算缺失值的任何策略(因此在方法和结果中提到);同样,在实施时,作者应讨论(如果相关)处理质量差的输入数据(例如,图像分辨率、数据格式)。
实例 14《Risk factors for severe respiratory syncytial virus infection during the first year of life: development and validation of a clinical prediction model:生命第1年发生严重呼吸道合胞病毒感染的危险因素:临床预测模型的建立与验证》。
27.2:指定在处理输入数据或使用模型时是否需要用户进行交互,以及需要用户具备何种水平的专业知识。D
提供有关预期或要求用户如何与预测模型交互以按预期使用模型的详细信息,例如处理输入数据的任何注意事项;使用模型、处理或收集输入数据是否需要或需要任何专业知识或培训,如果需要,请提供详细信息。
27.3:讨论未来研究的任何后续步骤,具体了解模型的适用性和可推广。E
是否需要对模型进行进一步评估,例如,在不同的人群或亚组中,或者模型是否准备好在临床试验中进行评估,或作为护理途径的一部分实施。
实例 14《Risk factors for severe respiratory syncytial virus infection during the first year of life: development and validation of a clinical prediction model:生命第1年发生严重呼吸道合胞病毒感染的危险因素:临床预测模型的建立与验证》。