机器学习工具的应用:基于肠道微生物预测II型糖尿病的发病风险

2 August 2022

[宝藤生物]

上海宝藤与河北省承德医学院附属医院合作,招募了118名初诊的II型糖尿病(T2DM)患者和89名对照受试者,采集了受试者的临床特征(包括年龄、性别、BMI、吸烟、饮酒和高血压状态)和粪便样本,并采用荧光定量PCR(qPCR)评估粪便样本中10种不同细菌(韦荣球菌科、柔嫩梭菌、罗氏菌、拟杆菌属、普雷沃菌属、双歧杆菌、乳酸杆菌属、普拉梭菌、肠球菌和直肠真杆菌)的相对丰度。运用3 种机器学习模型(SVM、XGboost和MLP)结合6个临床特征和10种肠道细菌预测T2DM发病风险。

该研究成果《Application of machine learning tools: Potential and useful approach for the prediction of type 2 diabetes mellitus based on the gut microbiome profile》于2022年发表在Experimental and therapeutic medicine杂志上。

研究背景

II型糖尿病(T2DM)是全世界上最常见的代谢疾病之一,主要由胰岛素抵抗引起。在过去30年中,全球T2DM和糖尿病前期患者的数量增加了两倍,表明T2DM成为了一种日益严重的公共卫生挑战。然而,T2DM是一种受多因素(比如肥胖、老龄化、不健康饮食、缺乏体育锻炼、吸烟,遗传因素和表观遗传修饰)影响的疾病,并且发病周期数年,进程缓慢。近几年的报道称,T2DM肥胖患者常发生肠道菌群(GM)失调,并表明肠道菌群可能是参与糖尿病发病和进展的主要环境因素。然而T2DM在早期不容易被发现,因此,有必要建立T2DM早期风险预测模型,从而对T2DM进行早期干预和治疗。

 

研究目的

开发一种基于机器学习的方法结合6个临床特征和10种肠道细菌早期预测T2DM发病风险。

研究方法

本研究共招募118名初诊的T2DM患者和89名对照受试者,收集了所有受试者的6个临床特征包括年龄、性别、BMI、吸烟、饮酒和高血压状态和粪便样本,并使用qPCR检测粪便样本中10种不同类型细菌丰度包括Veillonellaceae(韦荣球菌科)、Clostridium leptum(柔嫩梭菌)、Roseburia inulinivorans(罗氏菌)、Bacteroides(拟杆菌属)、Prevotella(普雷沃菌属)、Bifidobacterium(双歧杆菌)、Lactobacillus(乳酸杆菌属)、Faecalibacterium prausnitzii(普拉梭菌)、Enterococcus(肠球菌)和Eubacterium rectale(直肠真杆菌)。再运用Python开发的3种机器学习模型分别为多层感知机(the multilayer perceptron, MLP)、极端梯度提升(Extreme Gradient boosting, XGboost)和支持向量机(support vector machine, SVM),并结合6个临床特征和10种肠道细菌预测T2DM发病风险。模型分为训练集和测试集,并使用受试者工作特征曲线下面积(AUC值)进行模型预测能力评估。

研究结果

1、T2DM患者和对照组之间10种肠道细菌比较

通过qPCR检测比较T2DM患者和对照组中10种肠道细菌丰度。结果发现,T2DM组中拟杆菌属、直肠真杆菌和罗氏菌丰度显著低于对照组(图1A-C),而T2DM组中肠球菌丰度明显高于对照组(图1D)。

图1 T2DM与对照组4种细菌丰度比较

 

此外,对照组女性亚组的普拉梭菌丰度显著高于T2DM女性亚组(图2A),T2DM男性亚组肠球菌丰度显著高于对照组女性和男性亚组(图2B),而对照组女性和男性亚组的罗氏菌都显著高于T2DM女性亚组(图2C)。

图2 对照组女性和男性亚组以及T2DM女性和男性亚组之间3种细菌丰度比较

 

相比较而言,对照组老年(>60岁)亚组的拟杆菌丰度明显高于T2DM老年亚组(图3A);T2DM老年亚组(>60岁)的双歧杆菌丰度显著高于T2DM年轻(≤60岁)亚组和对照老年亚组(图3B);与60岁以下的对照组相比,T2DM患者中的老年亚组和年轻亚组中的肠球菌丰度都显著较高(图3C);此外,对照组年轻亚组罗氏菌丰度显著高于T2DM老年亚组(图3D)。

图3 对照组老年和年轻亚组与T2DM老年和年轻亚组之间4种细菌丰度比较

 

2、构建3种机器学习模型预测糖尿病发病风险

运用3种机器学习模型SVM、XGboost和MLP,结合6种临床特征和10种肠道细菌预测T2DM的发病风险。共有207个样本被随机分为训练集(80%)和测试集(20%)。结果表明,在训练集中,SVM、XGboost和MLP模型的AUC值分别为0.72、0.70和0.69,在测试集中,SVM模型的AUC值为0.77,XGboost和MLP模型AUC值分别为0.69和0.67(图4)。另外,我们运用XGboost模型分析16个特征的重要性排序(图5)。结果表明,该模型中排前三位的分别是双歧杆菌、年龄和罗氏菌,说明双歧杆菌、年龄和罗氏菌对模型预测能力起到重要作用。

图4 预测模型的评估

 

图5  XGboost模型预测6个临床特征和10种肠道细胞重要性排序

结论

本研究构建了3种机器学习模型并结合6个临床特征和10种肠道细菌预测T2DM发病风险。结果表明SVM模型具有较高的预测能力。此外,我们还发现双歧杆菌、年龄和罗氏菌对模型预测能力贡献最大。本研究中,用于评估糖尿病发病风险的机器学习模型是基于较小的样本量构建的,在临床应用前,仍需更大的研究队列对该预测模型进行优化和验证。

 

肠道菌群和我们的健康状态息息相关。大量研究证实肠道微生物与便秘、炎症性肠病、肥胖、癌症、自闭症、糖尿病等多种疾病有关。

近年来,宝藤生物一直致力于肠道微生态创新诊疗生态的布局。宝藤联合上海市第十人民医院等35家医疗机构发起成立了中国微生态治疗创新联盟,承接了上海市战略性新兴产业重大项目——“国内首个肠道微生态诊疗技术公共服务平台建设”,并联合多单位制定我国首个关于菌群移植临床应用的专家共识、菌群移植供体及样本质量控制标准等,为推进肠道微生态创新诊疗技术在临床上的广泛应用打下了坚实基础。

参考文献:Application of machine learning tools: Potential and useful approach for the prediction of type 2 diabetes mellitus based on the gut microbiome profile. Exp Ther Med . 2022 Apr;23(4):305.