星球JC | 高尿酸血症及相关代谢疾病风险模型

预测模型星球Journal Club
journal club
Author
Published

Wednesday, September 25, 2024

大家好,这一期预测模型星球Journal Club的分享来自青岛大学的 hedwig 同学。

这篇文章是 2024年 发表在 science 子刊 advanced scicence,题为 Multimodal Machine Learning-Based Marker Enables Early Detection and Prognosis Prediction for Hyperuricemia (Zeng et al. 2024)

title

研究背景

高尿酸血症(HUA)是指由于体内尿酸生成增加或排泄减少而导致的血清尿酸(SUA)水平升高。SUA 升高不仅会导致痛风,同时也会增加其他代谢异常风险,如慢性肾病、高血压、心血管疾病以及糖尿病。因此,早期识别HUA和预测痛风风险,能够为提早干预和预后管理提供宝贵见解。

目前,HUA 或痛风的风险评估主要依赖于临床指标或多基因风险评分(PRSs),缺乏将遗传和临床特征相结合的预测模型。另外,现有模型只是单纯预测 HUA 是否发生,但没有更加具体地量化 HUA 风险。

本研究旨在结合遗传和临床数据,开发并验证一个叠加的多模态机器学习模型,以便及时识别 HUA,及早预测痛风以及代谢相关疾病。

研究方法

研究类型

多中心研究。

研究人群

英国和中国两个队列。

UKBB 是一项正在进行的前瞻性研究,研究对象为 2006 年至 2010 年间招募的 50 万名年龄在 40-69 岁之间的个体,收集数据包括临床、基因型以及多次随访数据;南方医院数据集包括接受健康体检的参与者的信息。参与者为从 2015 年至 2020 年期间到医院体检的年龄 ≥18 岁的人群。

模型构建

study design

UKBB 数据随机按 8:2 分为训练集和内部测试集;南方医院数据作为外部测试集。

筛选相关临床特征:根据以往文献选择了 10 个重要变量,此外,对于基因数据,采用 LASSO 筛选对 HUA 有预测价值的 SNP。考虑到基因数据和临床特征变量的尺度不同,研究对所有变量进行标准化处理。

构建预测模型:研究采用集成学习的方式,将多个机器学习模型集成起来,将基分类器输出的预测概率作为 meta-classifier 的输入特征。其中,基分类器包含 7 个模型:Light Gradient-Boosting Machine、classical extreme Gradient Boosting、Categorical Boosting、Random Forest、Adaptive Boosting、Logistic Regression 以及 K-Nearest Neighbor,meta-classifier 为 classical extreme Gradient Boosting。

ensemble learning

预后价值判断:对于 meta-classifier 输出的概率,研究即视为 ISHUA 分值,使用最大约登指数进行 cutoff 的确定(全部使用终点为痛风的 cutoff),依据 ISHUA 的 cutoff 值,研究将人群分为低风险与高风险亚组,进而利用随访数据,使用 KM 生存曲线及 Cox 回归,评价其对痛风及代谢相关疾病预后的预测价值。

生活方式评价:利用模型划分的风险亚组,估计高风险组中生活方式与痛风及代谢相关疾病发生的相关关系。

研究结果

Table 1

对于临床特征:利用单因素 Logistic 回归分析 10 个临床特征与 HUA 之间的相关关系,筛选的临床特征均与高尿酸血症具有显著相关性。此外使用 Cox 回归分析这 10 个特征与与痛风之间的关系。

对于基因特征:从 GWAS 分析结果中选择与 SUA 相关(p 值小于 \(5\times{10}^5\) 或以往研究报道在跨种族人群中相关)的 SNP,对选中的 SNP 进行注释,并基于确定的 SNP 进行富集分析(GO 和 KEGG 分析)。

enrichment analysis

模型性能评价

在训练集中,使用遗传特征的模型预测 HUA 的 AUC 为 0.703(95%CI:0.700-0.705),使用临床特征的模型预测 HUA 的 AUC 为 0.822(95%CI:0.820-0.824),而结合了遗传和临床特征的堆叠多模态模型 AUC 为 0.859(95%CI:0.857-0.861)。

在内部测试集和外部测试集中,堆叠多模态模型的预测性能也明显优于单独的遗传或临床模型。此外,基于两个年龄亚组(以 40 岁为界)评价模型表现,发现模型在不同年龄组中均具有较好的性能。

ISHUA 的预后评估

ISHUA 与已知的 HUA 风险因素(人口统计、临床和遗传)相关性。

association

ISHUA 预测痛风及其他代谢相关性结局(Gout、AF、CAD、DmT2、HF、Hypertension、ESRD、All-cause death),Kaplan-Meier 生存曲线显示,ISHUA 分组能够较好地区分痛风及其他代谢相关性疾病。

prognosis

此外,还探讨了改变生活方式对不良结局的潜在获益。

lifestyle

Take home message

  1. 文章同时纳入基因和临床特征数据,提升对 HUA 的预测能力;

  2. 结合长期随访数据,观察模型的风险分组对相关疾病发生发展的预测价值。

References

Zeng, Lin, Pengcheng Ma, Zeyang Li, Shengxing Liang, Chengkai Wu, Chang Hong, Yan Li, et al. 2024. “Multimodal Machine Learning-Based Marker Enables Early Detection and Prognosis Prediction for Hyperuricemia.” Journal Article. Advanced Science 11 (34): 2404047. https://doi.org/10.1002/advs.202404047.