【论文发表】宝藤联合多家临床单位建立基于机器学习方法的中国人群COPD发病风险预测模型

13 April 2020

[宝藤生物]

近日,宝藤生物与大同煤矿集团有限责任公司总医院、太钢总医院(山西医科大学第六医院)、临汾市人民医院等单位共同合作,运用MassArray测序技术分析了COPD发病风险相关单核苷酸多态性特征,建立了基于机器学习方法的发病风险预测模型,为揭示COPD相关危险因素和社区防治提供了科学依据。研究成果《Comparison and development of machine learning tools for the prediction of chronic obstructive pulmonary disease in the Chinese population》于2020年3月在线发表于《Journal of Translational Medicine》。

慢性阻塞性肺疾病(chronic obstructive pulmonary disease,COPD) 以不完全可逆气流受限为特点,其典型症状包括呼吸困难、慢性咳嗽和咳痰,并且具有高患病率、致残率和死亡率,在全球范围内造成了严重的经济负担。目前肺功能检查是诊断COPD的金标准。当前COPD的发病因素有很多报道,然而迄今仍有诸多因素不够明晰。其中, 有报道基于COPD易感基因和全基因组关联研究(GWAS)揭示了单核苷酸多态性(SNP)与COPD的发生发展具有强相关性。COPD在早期阶段通常不易被识别、诊断或治疗,而肺功能指数对COPD的早期适用性又受到限制。因此,建立基于医学大数据的COPD早期风险预测模型,对于COPD的早期干预和治疗具有重要的临床意义。

研究方法

本研究由大同煤矿集团有限责任公司总医院、太钢总医院、临汾市人民医院、河北省人民医院、长治医学院附属和济医院、晋城市人民医院和宝藤生物合作,共招募了633例临床样本(441例COPD患者、192例健康对照)。首先,根据文献报道筛选了与COPD相关的101个SNPs,依托MassArray平台检测出训练集中393例样本的101个SNPs基因型,随后运用PLINK软件计算得出所有SNPs基因型所对应的P值和OR值,最终筛选出9个SNPs与COPD相关。通过筛选临床信息,最终我们选择了5个临床特征(空气质量综合指数(AQCI)、是否吸烟、年龄、性别和体质指数(BMI))纳入后续研究。再运用Python开发的6种机器学习模型分别为逻辑回归(logistic regression, LR)、多层感知机的人工神经网络(artificial neural network of the multilayer perceptron, MLP)、决策树(decision tree, DT)、极端梯度提升(eXtreme Gradient boosting, XGboost)、支持向量机(support vector machine, SVM) 和k-邻近算法(k-nearest neighbors classifer, KNN),结合筛选的9个SNPs和5个临床特征预测患COPD风险。分别分为训练集(290 COPD患者+103健康对照)和测试集(151COPD患者+89健康对照)比较分析6个模型预测效果,整个工作流程图如图1所示。

图1 模型训练和验证的评估流程图

研究结果

1.PLINK筛选出与COPD风险强相关的9个SNPs

首先排除缺失值大于10%的SNPs,最后成功纳入分析的为95个SNPs。通过PLINK软件分析得出与COPD相关的9个SNPs,其中6个SNPs (rs1007052, OR= 1.671, P= 0.010; rs2910164, OR= 1.416, P < 0.037; rs473892, OR= 1.473, P < 0.044; rs161976, OR= 1.594, P < 0.044; rs159497, OR= 1.445, P < 0.045; 和rs9296092, OR= 1.832, P < 0.045)为COPD发生的危险因素;而3个SNPs (rs8192288, OR= 0.593, P < 0.015; rs20541, OR= 0.669, P < 0.018;和rs12922394, OR= 0.651, P < 0.022) 为COPD发生的保护因素(如图2所示)。

图2 森林图展示与COPD相关的9个SNPs

2.训练集中6个预测模型的性能比较

模型使用的评价指标有:area under the receiver operating characteristic (ROC) curve (AU-ROC)(受试者工作特征曲线下面积,AU-ROC)、the area under the precision-recall (PR) curve (AU-PRC)(精确率-召回率曲线下面积,AU-RRC)、specificity(特异性)、sensitivity (recall)(灵敏性(召回率))、positive predictive value (PPV (precision))(阳性预测值(精确率))、negative predictive value (NPV)(阴性预测值)、accuracy(准确率)、F1 score(取精确率和召回率的调和均值)和MCC(评价和比较特征选择的综合性能)。

我们将9个SNPs和5个临床特征都纳入模型中分析,结果显示5个模型(KNN、LR、SVM、DT和XGboost)的AU-ROC都高于0.82, 而MLP模型的AU-ROC最低(0.80),但所有模型的AU-PRC都高于0.91 (如图3所示)。其中KNN、LR、SVM、DT和XGboost 5个模型都表现较优异,其准确率、精确率、灵敏性和F1值分别都高于0.81、0.85、0.87和0.87。

图3  AU-ROC和AU-PRC评价6个模型效果(训练集)

3.测试集中6个模型的性能验证

训练集中我们得知了6个模型的预测效果,为了验证上述模型的预测效果,我们再次收集样本分别在6个模型中去验证。结果显示所有模型的AU-PRC值都高于0.80;其中3个模型KNN、LR和XGboost都表现出较好的预测能力,其AU-ROC值全都高于0.80 (如图4所示)。并且KNN、LR和XGboost模型中的准确率、精确率、灵敏性、F1值和阴性预测值都分别高于0.79、0.78、0.90、0.84和0.80。

图4  AU-ROC和AU-PRC评价6个模型(测试集)

结论

综上所述,本研究确定了与中国人群COPD风险强相关的9个SNPs,并进一步构建了包括SNPs和临床特征在内的COPD风险预测模型,其中KNN、LR和XGboost模型显示了良好的整体预测能力。本项目为机器学习方法运用到临床COPD患者的早期诊断和治疗提供了科学依据。

我国慢阻肺患者人数近亿,20岁及以上成人的慢阻肺患病率为8.6%,慢阻肺已经成为与高血压、糖尿病“等量齐观”的最常见慢性疾病。慢阻肺是一种渐进性疾病,早期诊断可以进行早期干预。但由于慢阻肺起病隐匿,很容易被忽视,从而错过治疗的最佳时期。因此建立基于医学大数据的COPD早期风险预测模型,能早期识别COPD,大大减少COPD患者发展为严重慢阻肺的可能,对于COPD的早期干预和治疗具有重要的临床意义,为揭示COPD相关危险因素和社区防治提供了科学依据。

当前,宝藤生物在前期精准医学体系建设的基础上,逐步向医学大数据人工智能领域探索,确立了“一个引擎,四个应用”的智能医疗发展战略。其中一个引擎是指人工智能数据采集、挖掘及测试平台,包括数据收集、交易流通、传感采集等多渠道数据资源汇聚系统,人工智能深度学习测试训练库,多种类型的人工智能深度学习测试系统。未来,宝藤生物将继续与临床合作开展基于人工智能的创新技术研发和临床实践,并将该技术应用到肿瘤早筛、精准用药、病原微生物智能诊断、心脑血管疾病风险评估等更多领域。

文章来源:Comparison and development of machine learning tools for the prediction of chronic obstructive pulmonary disease in the Chinese population. J Transl Med 2020, 18:146.

https://doi.org/10.1186/s12967-020-02312-0