随机森林模型预测急性心肌梗死后急性肾损伤

Abstract

PDF

Figures

Tables

引用本文

蓝潞杭, 蒋炫东, 王茂峰, 张为民, 卢亮, 厉伟民. 随机森林模型预测急性心肌梗死后急性肾损伤[J]. 中华急诊医学杂志, 2021, 30(4): 491-495. 复制到剪切板

Lan Luhang, Jiang Xuandong, Wang Maofeng, Zhang Weimin, Lu Liang, Li Weimin. A random forest model to predict acute kidney injury after acute myocardial infarction[J]. Chin J Emerg Med, 2021, 30(4): 491-495. 复制到剪切板

随机森林模型预测急性心肌梗死后急性肾损伤

蓝潞杭¹ , 蒋炫东² , 王茂峰³ , 张为民² , 卢亮¹ , 厉伟民¹

1. 温州医科大学附属东阳医院心内科, 浙江省东阳 322100;
2. 温州医科大学附属东阳医院重症监护室, 浙江省东阳 322100;
3. 温州医科大学附属东阳医院生物实验室, 东阳 322100

收稿日期: 2020-09-14

通信作者: 厉伟民，Email：dyliwm@126.com.

摘要: 目的建立随机森林模型预测急性心肌梗死(acute myocardial infarction，AMI)患者并发急性肾损伤(acute kidney injury, AKI)。方法使用温州医科大学附属东阳医院大数据平台，筛选出1 363例患AMI的病例，确定30个变量后，统计分析样本临床特点，将样本划分为75%的训练集建立随机森林模型，以及25%的测试集进行验证，使用R语言进行数据的筛选及模型的建立。最后根据特异性、敏感性、准确性、受试者特征工作特征曲线(relative operating characteristic curve, ROC曲线)等来评估模型性能，同时与其他三种常用的机器学习算法(神经网络，朴素贝叶斯，支持向量机)的模型性能进行比较。结果 AMI合并AKI的患者的人口学信息、心血管疾病的危险因素、入院时的生命体征、实验室检查等与未合并急性肾损伤的患者存在差异性。模型评估后得出测试集的ROC曲线下面积为0.893，特异度为0.791，灵敏度为0.866，其中入院首次肌酐、首次尿素、D-二聚体、年龄、机械通气是其最重要的影响因素。在本研究中，多种机器学习算法比较后，随机森林模型较有优势。结论建立的随机森林模型具有帮助预测AMI并发AKI的潜力。

关键词: 急性心肌梗死急性肾损伤随机森林预测模型

A random forest model to predict acute kidney injury after acute myocardial infarction

Lan Luhang¹ , Jiang Xuandong² , Wang Maofeng³ , Zhang Weimin² , Lu Liang¹ , Li Weimin¹

1. Department of Cardiology, Affiliated Dongyang Hospital of Wenzhou Medical University, 322100 Dongyang, Zhejiang, China;
2. Department of Intensive care unit, Affiliated Dongyang Hospital of Wenzhou Medical University, 322100 Dongyang, Zhejiang, China;
3. Department of Biomedical Sciences Laboratory, Affiliated Dongyang Hospital of Wenzhou Medical University, 322100 Dongyang, Zhejiang, China

Corresponding author: Li Weimin, Email: dyliwm@126.com.

Abstract: Objective Our study aims to predict acute kidney injury (AKI) in acute myocardial infarction (AMI) by establishing a random forest model. Methods By using the clinical database from affiliated Dongyang Hospital of Wenzhou Medical University, a total of 1 363 AMI cases were included. Then, 75% of participants were analyzed as training subsets and the remaining 25% were testing subsets. The CARET package in R was used to filter variables and build random forest. The prediction ability of established model was evaluated by specificity, sensitivity, accuracy, relative operating characteristic curve (ROC curve) in testing subsets. In addition, the performance of random forest was compared with other 3 commonly used machine learning algorithms (Artificial Neural Network, Naive Bayes, and Support Vector Machine). Results In this study, 30 variables including the demographic information, risk factors of cardiovascular disease, vital signs at admission, laboratory tests were identified and used to establish our random forest prediction model. The area under the curve of the testing subsets ROC was 0.893. The specificity and sensitivity of prediction model was 0.791 and 0.866, respectively. And the first creatinine, first blood urea nitrogen, and D-dimer after admission, age, mechanical ventilation were the top-five factors in this model. After comparing various machine learning algorithms, random forest model had a better performance. Conclusion The random forest model would be used to predict the occurrence of AMI with AKI.

Key words: Acute myocardial infarction Acute kidney injury Random forest model Prediction model

急性心肌梗死(acute myocardial infarction, AMI)是心内科最常见的急危重症，虽然随着医疗水平的提升，治疗手段的进步，但其仍是世界上高发病率及高病死率的疾病之一^[1]。急性肾损伤(acute kidney injury, AKI)是肾功能在短时间内下降的一类临床综合征，它可以由很多原因导致，其中急性心脏病后会出现肾功能不全，即所谓的心肾综合征^[2-3]。AKI是AMI最常见的并发症之一，造成AMI后AKI发生的原因主要有两方面，一是由冠脉造影剂造影对比剂所致的急性肾损害^[4]，另一是因AMI导致肾脏血流灌注下降而出现急性肾功能损害^[5]。AMI合并AKI的发生会加重患者病情，严重影响预后^[5-8]，因此在临床工作中预测AMI后发生AKI是有必要的。机器学习是人工智能领域的一个分支，其在医学及生物领域中得到了广泛的应用^[9-10]，而前人在对AMI并发AKI的预测模型中以Logistic分析为主^[11]。本研究旨在探索随机森林模型预测AMI后AKI的发生，为临床医生诊治疾病提供一定参考。

1 资料与方法 1.1 资料获取及伦理

本研究获得温州医科大学附属东阳医院伦理委员会批准(2020-YX-086)，资料来自本院，使用乐九医疗科技公司(上海，中国)建立的大数据平台，其中涉及患者隐私的信息已由数据库系统自行隐去。筛选出从2013年到2019年间的1363例AMI病例，筛选标准：所有患者均以AMI为主要诊断，并因发生急性心肌缺血事件24 h内入院。排除标准：①血清肌酐、尿素检查缺失者; ②原先即存在终末期肾病或透析的患者。

1.2 诊断标准

AMI诊断标准^[12]：依据典型的临床表现、特征性的ECG改变、血清心肌标志物水平动态改变。AKI诊断标准(KDIGO标准)^[13]：48 h内血清肌酐水平升高≥0.3 mg/dL(≥26.5 μmol/L)或超过基础值的1.5倍及以上，且明确或经推断上述情况发生在7 d之内; 或持续6 h尿量 < 0.5 mL/(kg·h)。

1.3 自变量的选择及处理

结合临床实际及相关论文^{[7, 11, 14-15]}，初步筛选出142个潜在与急性心肌梗死及急性肾损伤相关变量，因收集的变量较多，需要对其进行一定程度的降维，首先将数据缺失达15%的变量予以剔除，然后使用R语言中的CARET程序包进行数据预处理^[16]，剔除了其中与其他自变量有强相关性的变量，对应的程序语句是findcorrelation，同时自变量中还有可能存在多重共线性问题，用findLinearCombos语句进行查找并进行相应的删减。此外，在数据量缺失小于15%的数据进行补充，偏态分布的数据用中位数补足缺失值，正态分布的数据用平均数补足缺失值。初步处理数据后再进行数据筛选，本研究建立的是随机森林模型，遂使用rfFuncs建立随机森林模型，然后使用rfe命令进行自变量的选择，最终确立30个变量的精度是最高的，其中包括了人口学信息、心血管疾病的危险因素、入院时的生命体征以及实验室检查等。

1.4 建立模型

确定好模型的变量后，随机抽取75%病例构建训练数据集，25%的病例数据作为测试集。

利用randomForest包实现随机森林算法的应用，指定Bootstrap随机抽样的方式，默认为有放回的抽样。随机森林模型有两个重要参数, 分别是决策树棵数ntree以及分裂结点预选变量个数mtry。首先选择mtry节点值，即节点中用于二叉树的变量个数，模型对应误差最小时mtry=24。再测试最佳决策树棵数ntree，当ntree=900时，模型表现最佳。importance函数用于计算模型变量的重要性，值越大说明变量的重要性越强。

1.5 模型的评估

模型建立后需要对其进行评估来确定其是否适用于对疾病的预测。本研究通过R语言计算出测试集的准确率、敏感性、特异性，并使用R语言的pROC程序包进行受试者特征工作特征曲线(relative operating characteristic curve, ROC曲线)的绘制及曲线下面积(area under the curve，AUC)来对随机森林模型进行评价。

1.6 模型对比

此外我们又建立了朴素贝叶斯、支持向量机及人工神经网络等较常用的机器学习算法, 并将其预测结果与随机森林模型进行比较。

1.7 统计学方法

使用R v3.6.1进行统计分析，偏态分布的计量资料以中位数(四分位间距)[M(P₂₅, P₇₅)]表示，偏态分布的组间比较采用Mann-Whitney U检验; 计数资料以(n, %) 描述，组间比较采用Pearson χ²检验，以P < 0.05为差异有统计学意义。

表 1 AKI组和非AKI组的基本信息比较 Table 1 Comparison of basic information between AKI and non-AKI groups

指标	合计(n = 1363)	无急性肾损伤(n = 1092)	合并急性肾损伤(n = 271)	统计量(χ²/u值)	P值
年龄(岁)	69 (55, 79)	66 (53, 76)	80 (70, 84)	75 979	< 0.001
性别(n, %)
女	416 (31)	303 (28)	113 (42)	19.9	< 0.001
男	947 (69)	789 (72)	158 (58)	19.9	< 0.001
高血压(n, %)	804 (59)	624 (57)	180 (66)	7.7	0.005
糖尿病(n, %)	308 (23)	219 (20)	89 (33)	20.3	< 0.001
饮酒史(n, %)	481 (35)	409 (37)	72 (27)	11.3	< 0.001
吸烟史(n, %)	688 (50)	597 (55)	91 (34)	38.6	< 0.001
机械通气(n, %)	119 (9)	42 (4)	77 (28)	161.4	< 0.001
Killip分级(n, %)
1	884 (65)	796 (73)	88 (32)	202.3	< 0.001
2	261 (19)	191 (17)	70 (26)
3	90 (7)	43 (4)	47 (17)
4	128 (9)	62 (6)	66 (24)
^b转归(n, %)
好转	1251 (89)	1044 (94)	207 (68)	106.4	< 0.001
未愈	112(11)	48(6)	64(32)	106.4	< 0.001
^a恶性事件(n, %)	84 (6)	48 (4)	36 (13)	28.1	< 0.001
白细胞(×10⁹/L)	9.5 (7.3, 11.9)	9.3 (7.2, 11.7)	10.1 (7.9, 13.6)	128 200	< 0.001
中性粒细胞(×10⁹/L)	6.8 (4.9, 9.8)	6.5 (4.8, 9.3)	7.7 (5.4, 11.5)	123 036	< 0.001
淋巴细胞(×10⁹/L)	1.5 (1.0, 2.1)	1.6 (1.1, 2.2)	1.2 (0.8, 1.8)	114 685.5	< 0.001
红细胞(×1012/L)	4.5 (4.0, 4.9)	4.6 (4.1, 4.9)	4.1 (3.6, 4.5)	85 755	< 0.001
红细胞分布宽度	0.13(0.12，0.13)	0.13(0.12，0.13)	0.13(0.13，0.14)	114 132.5	< 0.001
血小板(×10⁹/L)	208(173, 250.5)	209(174, 250)	207(168, 258.5)	151 366.5	0.588
平均血小板体积(fl)	9.5(8.7, 10.3)	9.4(8.7, 10.2)	9.6(8.8, 10.6)	133 855	0.015
D二聚体(μg/L)	0.8 (0.5, 1.2)	0.7 (0.4, 1.1)	1.23 (0.8, 2.3)	81 330	< 0.001
白蛋白(g/L)	37.3 (34.7, 39.7)	37.7 (35.2, 40.0)	35.6 (32.9, 38.0)	100 185	< 0.001
球蛋白(g/L)	25.5(23.0, 28.2)	25.3(22.7, 27.8)	26.8(23.4, 29.8)	121 901.5	0.223
首次肌酐(μmol/L)	76 (64, 96)	72 (62, 86)	108 (81, 147.5)	64 979	< 0.001
首次尿素(mmol/L)	6.0 (4.6, 8.0)	5.6 (4.5, 7.1)	9.3 (6.6, 13.1)	65 748.5	< 0.001
尿红细胞	7.3(3.1, 18.1)	6.6(3.0, 14.9)	10.8(3.6, 60.1)	117 866.5	< 0.001
最小住院舒张压(mmHg)	78 (68, 89)	79 (69, 90)	75 (64, 84)	119 910	< 0.001
急诊入院心率(bpm)	80 (68, 92)	78 (67, 90)	86 (74, 100)	110 069	< 0.001
入院体温(℃)	36.8 (36.5, 37.1)	36.8 (36.5, 37.1)	36.8 (36.5, 37.2)	139 544.5	0.146
入院进病房呼吸频率(次/min)	18 (18. 20)	18 (18. 20)	20 (18, 22)	120 753	< 0.001
血磷(mmol/L)	1.0 (0.9, 1.2)	1.0 (0.9, 1.2)	1.1 (0.9, 1.3)	110 442.5	< 0.001
血钾(mmol/L)	3.8 (3.5, 4.1)	3.8 (3.5, 4.1)	3.9 (3.6, 4.3)	124 256.5	< 0.001
血钠(mmol/L)	140.1 (137.6, 142.6)	140.1 (137.7, 142.2)	140.4 (137, 144.5)	140 895	0.223
凝血酶原时间(s)	1.03 (0.98, 1.1)	1.02 (0.97, 1.08)	1.08 (1.01, 1.18)	97 679	< 0.001
C反应蛋白(mg/L)	4.5 (1.4, 17.6)	3.6 (1.2, 12.1)	12.9 (3.1, 53.9)	98 975.5	< 0.001
谷草转氨酶(U/L)	93 (39, 218.5)	91.5 (40, 211)	98 (37, 259.5)	144 331	0.531
谷丙转氨酶(U/L)	34 (21, 58)	34 (21, 55)	36 (18, 83)	140 524	0.199
乳酸脱氢酶(IU/L)	240 (194, 353.5)	233 (191, 327)	280 (214.5, 465)	113 688.5	< 0.001
甘油三脂(mmol/L)	1.4 (1.0, 2.0)	1.4 (1.0, 2.1)	1.3 (0.9, 1.9)	166 738	0.001
总胆固醇(mmol/L)	4.3 (3.6, 5.1)	4.3 (3.7, 5.1)	4.2 (3.3, 5.2)	160 017.5	0.038
脑钠肽(ng/L)	781.3 (161.6, 2582)	533.6 (124.6, 1805.5)	2797 (889, 8439)	78 689	< 0.001
注：P值为AKI组与非AKI组比较, P < 0.05为具有统计学意义; 非正态分布的计量资料以M(P₂₅, P₇₅)表示; ^a恶性事件：恶性心律失常、心源性休克、心源性晕厥; b转归：将未愈、自动出院、死亡归为未愈一类。

表选项

2 结果 2.1 两组患者基本临床资料比较。

总共纳入研究的患者有1 364例，AMI合并AKI的患者有271例，占所有患者的19.88%，两组的基本临床资料如表一所示，合并AKI的患者年龄较大，患有高血压和糖尿病的比例较多，入院后根据killip分级评价出现心力衰竭的患者较多(killip≥3级)，同时发生恶性事件(包括恶性心律失常、心源性休克及心源性晕厥)明显高于未合并AKI的患者，合并AKI的病死率要明显较高。其他的人口学统计、个人史、实验室检查、生命体征等差异有统计学意义(P < 0.05)。

2.2 随机森林模型结果

随机森林模型的测试结果见表 2，在340个样本中，有289个样本预测正确，其准确率85%。

表 2 随机森林模型测试结果 Table 2 Confusion matrix

混淆矩阵		预测值		准确率
混淆矩阵		发生	未发生	准确率
真实值	发生	265	43	0.85
真实值	未发生	8	24	0.85

表选项

2.3 模型评价及变量权重

通过四种机器学习模型效能的比较，见表 3，可以看出四种机器学习模型AUC值均大于0.8，其中随机森林的AUC值为0.893, 较其他三者高，特异度为0.791，灵敏度为0.866。随机森林模型的变量重要性排序如图 1，其中首次肌酐、首次尿素、是否使用机械通气、年龄、D-二聚体为随机森林的前五位重要变量。

表 3 模型预测能力比较 Table 3 Prediction comparison of models

算法模型	AUC	特异度	灵敏度	准确率
随机森林	0.893	0.791	0.866	0.806
贝叶斯	0.889	0.850	0.806	0.841
支持向量机	0.867	0.791	0.821	0.797
人工神经网络	0.819	0.923	0.612	0.862

表选项

图 1 随机森林模型变量重要性 Fig 1 The importance of the random forest model

图选项

3 讨论

本研究建立了急性心肌梗死后合并急性肾损伤的随机森林模型，其中纳入了30个变量进行研究，最终评估模型有较好的预测能力。

随机森林在处理医疗数据中展现了其高效的特点，其在基因、蛋白、药物、疾病等领域中都有了广泛的研究^[9]，而目前对AMI患者发生AKI的此类预测模型研究较少。本研究最终测试集的结果准确率为0.85，模型预测能力AUC值为0.893，特异度为0.791，灵敏度为0.866，说明建立的随机森林模型有较好的预测能力。与此同时，本研究对比了另外三种常用的机器学习模型，考虑随机森林对疾病预测能力更佳。

本研究对变量的重要性进行排序，其中首次肌酐及尿素代表了肾功能基线水平，在Xu等^[5]对AMI合并AKI的患者建立的预测评分模型中，基线肾功能是其较重要的影响因素，考虑急性心肌梗死后全身器官血流灌注不足，导致肾功能基线水平较差的患者进一步加重病情，因此实际临床工作中对AMI的高危人群进行基线肾功能的监测是有必要的。D-二聚体是一种血栓标志物，其常用于帮助诊断肺栓塞。但其亦可以用于对AMI早期诊断以及不良预后的预测，同时在一项糖尿病肾病的早期肾损伤的研究中提出的观点是D-二聚体与肾功能有相关性，可见D-二聚体或许在AMI合并AKI的早期能够起到一定的预测作用。在AMI的患者中，进行冠脉造影及介入手术是其主要的检查及治疗方式。年龄因素亦在模型中占了一定比重，本研究的人群中合并有AKI的患者较未合并的患者年长，美国学者对年龄大于75岁的AMI患者病例研究发现发生AKI的人群明显增长，与本研究人群的结果基本相符。此外，在本研究中接受机械通气治疗与否亦是模型的重要因素之一，其原因可能是AMI人群的病情危重，出现心肺功能衰竭的风险增加，本研究纳入的人群中使用机械通气治疗的患者占9%，有研究表明机械通气作为AKI的独立危险因素，其在血流动力学、炎症反应等方面对AKI的发生产生着影响，同时AKI的发生又会影响机械通气治疗的方式以及预后，为改善此类患者预后及预防AKI的发生，机械通气的模式及参数选择就相当重要了。

此外，在不久前的一项国人研究中，随机森林模型被用于预测造影剂相关急性肾损伤的研究，其与传统的logistic模型进行了对比，最终得出机器学习模型优于传统模型的结论。而本研究建立随机森林模型则与三种其他的机器学习算法进行比较，发现本研究的模型AUC、特异度、灵敏度均高于前项的研究，究其原因可能在于：本研究人群不全是进行了冠脉造影检查，因而未对造影剂相关急性肾损伤进行区分; 两项研究所处的地区不同导致人群差异; 纳入的变量不同。而肾功能基线与患者年龄均出现在两者的模型中，更说明了两个变量对预测AKI在AMI人群中发生的参考价值。

本研究的影响因素重要性是有迹可循的，给我们建立的模型增加了一定的可信度，因此在临床实践中可以运用模型对患者进行适当的评估，能够一定程度上干预疾病的发展。当然本研究仍存在一定的局限性，首先涉及的变量较多，这是运用语言中的CARET包得出的最佳的变量个数，可能在实际临床实践中缺乏实用性，或许后续通过其他方法可以对变量数进行优化。其次本研究是单中心的研究，纳入的样本量较少，因缺失值较多导致部分变量被迫删除了，若增加样本容量，完善变量的收集，会得到更接近真实结果的数据。本研究目前只是一项探索性研究，还需要更多人群样本的验证。

综上，随机森林模型对在AMI的患者中发生AKI有较好的预测能力，在临床实践中能够提供有效的参考。

利益冲突 所有作者均声明不存在利益冲突

参考文献

[1]	Reed GW, Rossi JE, and Cannon CP. Acute myocardial infarction[J]. Lancet (London, England), 2017, 389(10065): 197-210. DOI:10.1016/S0140-6736(16)30677-8

[2]	Ronco C, Bellasi A, di Lullo L. Cardiorenal syndrome: an overview[J]. Adv Chronic Kidney Dis, 2018, 25(5): 382-390. DOI:10.1053/j.ackd.2018.08.004

[3]	吴淡森, 石松菁. "肾" 事风云: 再谈急性肾损伤的基础与临床研究[J]. 中华急诊医学杂志, 2019, 28(9): 1066-1070. DOI:10.3760/cma.j.issn.1671-0282.2019.09.002

[4]	McCullough PA, Choi JP, Feghali GA, et al. Contrast-induced acute kidney injury[J]. J Am Coll Cardiol, 2016, 68(13): 1465-1473. DOI:10.1016/j.jacc.2016.05.099

[5]	Xu FB, Cheng H, Yue T, et al. Derivation and validation of a prediction score for acute kidney injury secondary to acute myocardial infarction in Chinese patients[J]. BMC Nephrol, 2019, 20(1): 195. DOI:10.1186/s12882-019-1379-x

[6]	James MT, Samuel SM, Manning MA, et al. Contrast-induced acute kidney injury and risk of adverse clinical outcomes after coronary angiography: a systematic review and meta-analysis[J]. Circ Cardiovasc Interv, 2013, 6(1): 37-43. DOI:10.1161/CIRCINTERVENTIONS.112.974493

[7]	Mody P, Wang T, McNamara R, et al. Association of acute kidney injury and chronic kidney disease with processes of care and long-term outcomes in patients with acute myocardial infarction[J]. Eur Heart J Qual Care Clin Outcomes, 2018, 4(1): 43-50. DOI:10.1093/ehjqcco/qcx020

[8]	Marenzi G, Cosentino N, Bartorelli AL. Acute kidney injury in patients with acute coronary syndromes[J]. Heart, 2015, 101(22): 1778-1785. DOI:10.1136/heartjnl-2015-307773.[LinkOut

[9]	韩玉, 施海龙, 曲波, 等. 随机森林方法在医学中的应用[J]. 中国预防医学杂志, 2014, 15(1): 79-81. DOI:10.16506/j.1009-6639.2014.01.006

[10]	赵梦蝶, 孙九爱. 机器学习在心血管疾病诊断中的研究进展[J]. 北京生物医学工程, 2020, 39(2): 208-214. DOI:10.3969/j.issn.1002-3208.2020.02.015

[11]	孙妍蓓, 刘必成, 邹芸, 等. 1371例急性心肌梗死后急性肾损伤患者的临床分析[J]. 中华肾脏病杂志, 2014, 30(10): 725-731. DOI: 10.3760/cma.j.issn.1001-7097.2014.10.001.[万方]

[12]	中华医学会心血管病学分会, 中华心血管病杂志编辑委员会. 急性ST段抬高型心肌梗死诊断和治疗指南[J]. 中华心血管病杂志, 2010, 38(8): 675-690. DOI:10.3760/cma.j.issn.0253-3758.2010.08.002

[13]	Levey AS, James MT. Acute Kidney Injury[J]. Ann Intern Med, 2017, 167(9): ITC66-ITC80. DOI:10.7326/AITC201711070

[14]	裴源源, 马云晖, 马晓路, 等. 急性心肌梗死病例致急性肾损伤危险因素分析[J]. 中华急诊医学杂志, 2016, 25(9): 1166-1170. DOI:10.3760/cma.j.issn.1671-0282.2016.09.014

[15]	蒋远霞, 唐艳, 易扬, 等. 高尿酸血症是脓毒症患者发生急性肾损伤的独立危险因素[J]. 中华急诊医学杂志, 2020, 29(9): 1178-1183. DOI:10.3760/cma.j.issn.1671-0282.2020.09.008

[16]	Kuhn M WJ, Weston S, et al. CARET: classification and regression training. Available from: https://CRAN.R-project.org/package=caret.