2. 温州医科大学附属东阳医院重症监护室, 浙江省东阳 322100;
3. 温州医科大学附属东阳医院生物实验室, 东阳 322100
2. Department of Intensive care unit, Affiliated Dongyang Hospital of Wenzhou Medical University, 322100 Dongyang, Zhejiang, China;
3. Department of Biomedical Sciences Laboratory, Affiliated Dongyang Hospital of Wenzhou Medical University, 322100 Dongyang, Zhejiang, China
急性心肌梗死(acute myocardial infarction, AMI)是心内科最常见的急危重症,虽然随着医疗水平的提升,治疗手段的进步,但其仍是世界上高发病率及高病死率的疾病之一[1]。急性肾损伤(acute kidney injury, AKI)是肾功能在短时间内下降的一类临床综合征,它可以由很多原因导致,其中急性心脏病后会出现肾功能不全,即所谓的心肾综合征[2-3]。AKI是AMI最常见的并发症之一,造成AMI后AKI发生的原因主要有两方面,一是由冠脉造影剂造影对比剂所致的急性肾损害[4],另一是因AMI导致肾脏血流灌注下降而出现急性肾功能损害[5]。AMI合并AKI的发生会加重患者病情,严重影响预后[5-8],因此在临床工作中预测AMI后发生AKI是有必要的。机器学习是人工智能领域的一个分支,其在医学及生物领域中得到了广泛的应用[9-10],而前人在对AMI并发AKI的预测模型中以Logistic分析为主[11]。本研究旨在探索随机森林模型预测AMI后AKI的发生,为临床医生诊治疾病提供一定参考。
1 资料与方法 1.1 资料获取及伦理本研究获得温州医科大学附属东阳医院伦理委员会批准(2020-YX-086),资料来自本院,使用乐九医疗科技公司(上海,中国)建立的大数据平台,其中涉及患者隐私的信息已由数据库系统自行隐去。筛选出从2013年到2019年间的1363例AMI病例,筛选标准:所有患者均以AMI为主要诊断,并因发生急性心肌缺血事件24 h内入院。排除标准:①血清肌酐、尿素检查缺失者; ②原先即存在终末期肾病或透析的患者。
1.2 诊断标准AMI诊断标准[12]:依据典型的临床表现、特征性的ECG改变、血清心肌标志物水平动态改变。AKI诊断标准(KDIGO标准)[13]:48 h内血清肌酐水平升高≥0.3 mg/dL(≥26.5 μmol/L)或超过基础值的1.5倍及以上,且明确或经推断上述情况发生在7 d之内; 或持续6 h尿量 < 0.5 mL/(kg·h)。
1.3 自变量的选择及处理结合临床实际及相关论文[7, 11, 14-15],初步筛选出142个潜在与急性心肌梗死及急性肾损伤相关变量,因收集的变量较多,需要对其进行一定程度的降维,首先将数据缺失达15%的变量予以剔除,然后使用R语言中的CARET程序包进行数据预处理[16],剔除了其中与其他自变量有强相关性的变量,对应的程序语句是findcorrelation,同时自变量中还有可能存在多重共线性问题,用findLinearCombos语句进行查找并进行相应的删减。此外,在数据量缺失小于15%的数据进行补充,偏态分布的数据用中位数补足缺失值,正态分布的数据用平均数补足缺失值。初步处理数据后再进行数据筛选,本研究建立的是随机森林模型,遂使用rfFuncs建立随机森林模型,然后使用rfe命令进行自变量的选择,最终确立30个变量的精度是最高的,其中包括了人口学信息、心血管疾病的危险因素、入院时的生命体征以及实验室检查等。
1.4 建立模型确定好模型的变量后,随机抽取75%病例构建训练数据集,25%的病例数据作为测试集。
利用randomForest包实现随机森林算法的应用,指定Bootstrap随机抽样的方式,默认为有放回的抽样。随机森林模型有两个重要参数, 分别是决策树棵数ntree以及分裂结点预选变量个数mtry。首先选择mtry节点值,即节点中用于二叉树的变量个数,模型对应误差最小时mtry=24。再测试最佳决策树棵数ntree,当ntree=900时,模型表现最佳。importance函数用于计算模型变量的重要性,值越大说明变量的重要性越强。
1.5 模型的评估模型建立后需要对其进行评估来确定其是否适用于对疾病的预测。本研究通过R语言计算出测试集的准确率、敏感性、特异性,并使用R语言的pROC程序包进行受试者特征工作特征曲线(relative operating characteristic curve, ROC曲线)的绘制及曲线下面积(area under the curve,AUC)来对随机森林模型进行评价。
1.6 模型对比此外我们又建立了朴素贝叶斯、支持向量机及人工神经网络等较常用的机器学习算法, 并将其预测结果与随机森林模型进行比较。
1.7 统计学方法使用R v3.6.1进行统计分析,偏态分布的计量资料以中位数(四分位间距)[M(P25, P75)]表示,偏态分布的组间比较采用Mann-Whitney U检验; 计数资料以(n, %) 描述,组间比较采用Pearson χ2检验,以P < 0.05为差异有统计学意义。
指标 | 合计(n = 1363) | 无急性肾损伤(n = 1092) | 合并急性肾损伤(n = 271) | 统计量(χ2/u值) | P值 |
年龄(岁) | 69 (55, 79) | 66 (53, 76) | 80 (70, 84) | 75 979 | < 0.001 |
性别(n, %) | |||||
女 | 416 (31) | 303 (28) | 113 (42) | 19.9 | < 0.001 |
男 | 947 (69) | 789 (72) | 158 (58) | ||
高血压(n, %) | 804 (59) | 624 (57) | 180 (66) | 7.7 | 0.005 |
糖尿病(n, %) | 308 (23) | 219 (20) | 89 (33) | 20.3 | < 0.001 |
饮酒史(n, %) | 481 (35) | 409 (37) | 72 (27) | 11.3 | < 0.001 |
吸烟史(n, %) | 688 (50) | 597 (55) | 91 (34) | 38.6 | < 0.001 |
机械通气(n, %) | 119 (9) | 42 (4) | 77 (28) | 161.4 | < 0.001 |
Killip分级(n, %) | |||||
1 | 884 (65) | 796 (73) | 88 (32) | 202.3 | < 0.001 |
2 | 261 (19) | 191 (17) | 70 (26) | ||
3 | 90 (7) | 43 (4) | 47 (17) | ||
4 | 128 (9) | 62 (6) | 66 (24) | ||
b转归(n, %) | |||||
好转 | 1251 (89) | 1044 (94) | 207 (68) | 106.4 | < 0.001 |
未愈 | 112(11) | 48(6) | 64(32) | ||
a恶性事件(n, %) | 84 (6) | 48 (4) | 36 (13) | 28.1 | < 0.001 |
白细胞(×109/L) | 9.5 (7.3, 11.9) | 9.3 (7.2, 11.7) | 10.1 (7.9, 13.6) | 128 200 | < 0.001 |
中性粒细胞(×109/L) | 6.8 (4.9, 9.8) | 6.5 (4.8, 9.3) | 7.7 (5.4, 11.5) | 123 036 | < 0.001 |
淋巴细胞(×109/L) | 1.5 (1.0, 2.1) | 1.6 (1.1, 2.2) | 1.2 (0.8, 1.8) | 114 685.5 | < 0.001 |
红细胞(×1012/L) | 4.5 (4.0, 4.9) | 4.6 (4.1, 4.9) | 4.1 (3.6, 4.5) | 85 755 | < 0.001 |
红细胞分布宽度 | 0.13(0.12,0.13) | 0.13(0.12,0.13) | 0.13(0.13,0.14) | 114 132.5 | < 0.001 |
血小板(×109/L) | 208(173, 250.5) | 209(174, 250) | 207(168, 258.5) | 151 366.5 | 0.588 |
平均血小板体积(fl) | 9.5(8.7, 10.3) | 9.4(8.7, 10.2) | 9.6(8.8, 10.6) | 133 855 | 0.015 |
D二聚体(μg/L) | 0.8 (0.5, 1.2) | 0.7 (0.4, 1.1) | 1.23 (0.8, 2.3) | 81 330 | < 0.001 |
白蛋白(g/L) | 37.3 (34.7, 39.7) | 37.7 (35.2, 40.0) | 35.6 (32.9, 38.0) | 100 185 | < 0.001 |
球蛋白(g/L) | 25.5(23.0, 28.2) | 25.3(22.7, 27.8) | 26.8(23.4, 29.8) | 121 901.5 | 0.223 |
首次肌酐(μmol/L) | 76 (64, 96) | 72 (62, 86) | 108 (81, 147.5) | 64 979 | < 0.001 |
首次尿素(mmol/L) | 6.0 (4.6, 8.0) | 5.6 (4.5, 7.1) | 9.3 (6.6, 13.1) | 65 748.5 | < 0.001 |
尿红细胞 | 7.3(3.1, 18.1) | 6.6(3.0, 14.9) | 10.8(3.6, 60.1) | 117 866.5 | < 0.001 |
最小住院舒张压(mmHg) | 78 (68, 89) | 79 (69, 90) | 75 (64, 84) | 119 910 | < 0.001 |
急诊入院心率(bpm) | 80 (68, 92) | 78 (67, 90) | 86 (74, 100) | 110 069 | < 0.001 |
入院体温(℃) | 36.8 (36.5, 37.1) | 36.8 (36.5, 37.1) | 36.8 (36.5, 37.2) | 139 544.5 | 0.146 |
入院进病房呼吸频率(次/min) | 18 (18. 20) | 18 (18. 20) | 20 (18, 22) | 120 753 | < 0.001 |
血磷(mmol/L) | 1.0 (0.9, 1.2) | 1.0 (0.9, 1.2) | 1.1 (0.9, 1.3) | 110 442.5 | < 0.001 |
血钾(mmol/L) | 3.8 (3.5, 4.1) | 3.8 (3.5, 4.1) | 3.9 (3.6, 4.3) | 124 256.5 | < 0.001 |
血钠(mmol/L) | 140.1 (137.6, 142.6) | 140.1 (137.7, 142.2) | 140.4 (137, 144.5) | 140 895 | 0.223 |
凝血酶原时间(s) | 1.03 (0.98, 1.1) | 1.02 (0.97, 1.08) | 1.08 (1.01, 1.18) | 97 679 | < 0.001 |
C反应蛋白(mg/L) | 4.5 (1.4, 17.6) | 3.6 (1.2, 12.1) | 12.9 (3.1, 53.9) | 98 975.5 | < 0.001 |
谷草转氨酶(U/L) | 93 (39, 218.5) | 91.5 (40, 211) | 98 (37, 259.5) | 144 331 | 0.531 |
谷丙转氨酶(U/L) | 34 (21, 58) | 34 (21, 55) | 36 (18, 83) | 140 524 | 0.199 |
乳酸脱氢酶(IU/L) | 240 (194, 353.5) | 233 (191, 327) | 280 (214.5, 465) | 113 688.5 | < 0.001 |
甘油三脂(mmol/L) | 1.4 (1.0, 2.0) | 1.4 (1.0, 2.1) | 1.3 (0.9, 1.9) | 166 738 | 0.001 |
总胆固醇(mmol/L) | 4.3 (3.6, 5.1) | 4.3 (3.7, 5.1) | 4.2 (3.3, 5.2) | 160 017.5 | 0.038 |
脑钠肽(ng/L) | 781.3 (161.6, 2582) | 533.6 (124.6, 1805.5) | 2797 (889, 8439) | 78 689 | < 0.001 |
注:P值为AKI组与非AKI组比较, P < 0.05为具有统计学意义; 非正态分布的计量资料以M(P25, P75)表示; a恶性事件:恶性心律失常、心源性休克、心源性晕厥; b转归:将未愈、自动出院、死亡归为未愈一类。 |
总共纳入研究的患者有1 364例,AMI合并AKI的患者有271例,占所有患者的19.88%,两组的基本临床资料如表一所示,合并AKI的患者年龄较大,患有高血压和糖尿病的比例较多,入院后根据killip分级评价出现心力衰竭的患者较多(killip≥3级),同时发生恶性事件(包括恶性心律失常、心源性休克及心源性晕厥)明显高于未合并AKI的患者,合并AKI的病死率要明显较高。其他的人口学统计、个人史、实验室检查、生命体征等差异有统计学意义(P < 0.05)。
2.2 随机森林模型结果随机森林模型的测试结果见表 2,在340个样本中,有289个样本预测正确,其准确率85%。
通过四种机器学习模型效能的比较,见表 3,可以看出四种机器学习模型AUC值均大于0.8,其中随机森林的AUC值为0.893, 较其他三者高,特异度为0.791,灵敏度为0.866。随机森林模型的变量重要性排序如图 1,其中首次肌酐、首次尿素、是否使用机械通气、年龄、D-二聚体为随机森林的前五位重要变量。
算法模型 | AUC | 特异度 | 灵敏度 | 准确率 |
随机森林 | 0.893 | 0.791 | 0.866 | 0.806 |
贝叶斯 | 0.889 | 0.850 | 0.806 | 0.841 |
支持向量机 | 0.867 | 0.791 | 0.821 | 0.797 |
人工神经网络 | 0.819 | 0.923 | 0.612 | 0.862 |
3 讨论
本研究建立了急性心肌梗死后合并急性肾损伤的随机森林模型,其中纳入了30个变量进行研究,最终评估模型有较好的预测能力。
随机森林在处理医疗数据中展现了其高效的特点,其在基因、蛋白、药物、疾病等领域中都有了广泛的研究[9],而目前对AMI患者发生AKI的此类预测模型研究较少。本研究最终测试集的结果准确率为0.85,模型预测能力AUC值为0.893,特异度为0.791,灵敏度为0.866,说明建立的随机森林模型有较好的预测能力。与此同时,本研究对比了另外三种常用的机器学习模型,考虑随机森林对疾病预测能力更佳。
本研究对变量的重要性进行排序,其中首次肌酐及尿素代表了肾功能基线水平,在Xu等[5]对AMI合并AKI的患者建立的预测评分模型中,基线肾功能是其较重要的影响因素,考虑急性心肌梗死后全身器官血流灌注不足,导致肾功能基线水平较差的患者进一步加重病情,因此实际临床工作中对AMI的高危人群进行基线肾功能的监测是有必要的。D-二聚体是一种血栓标志物,其常用于帮助诊断肺栓塞。但其亦可以用于对AMI早期诊断以及不良预后的预测,同时在一项糖尿病肾病的早期肾损伤的研究中提出的观点是D-二聚体与肾功能有相关性,可见D-二聚体或许在AMI合并AKI的早期能够起到一定的预测作用。在AMI的患者中,进行冠脉造影及介入手术是其主要的检查及治疗方式。年龄因素亦在模型中占了一定比重,本研究的人群中合并有AKI的患者较未合并的患者年长,美国学者对年龄大于75岁的AMI患者病例研究发现发生AKI的人群明显增长,与本研究人群的结果基本相符。此外,在本研究中接受机械通气治疗与否亦是模型的重要因素之一,其原因可能是AMI人群的病情危重,出现心肺功能衰竭的风险增加,本研究纳入的人群中使用机械通气治疗的患者占9%,有研究表明机械通气作为AKI的独立危险因素,其在血流动力学、炎症反应等方面对AKI的发生产生着影响,同时AKI的发生又会影响机械通气治疗的方式以及预后,为改善此类患者预后及预防AKI的发生,机械通气的模式及参数选择就相当重要了。
此外,在不久前的一项国人研究中,随机森林模型被用于预测造影剂相关急性肾损伤的研究,其与传统的logistic模型进行了对比,最终得出机器学习模型优于传统模型的结论。而本研究建立随机森林模型则与三种其他的机器学习算法进行比较,发现本研究的模型AUC、特异度、灵敏度均高于前项的研究,究其原因可能在于:本研究人群不全是进行了冠脉造影检查,因而未对造影剂相关急性肾损伤进行区分; 两项研究所处的地区不同导致人群差异; 纳入的变量不同。而肾功能基线与患者年龄均出现在两者的模型中,更说明了两个变量对预测AKI在AMI人群中发生的参考价值。
本研究的影响因素重要性是有迹可循的,给我们建立的模型增加了一定的可信度,因此在临床实践中可以运用模型对患者进行适当的评估,能够一定程度上干预疾病的发展。当然本研究仍存在一定的局限性,首先涉及的变量较多,这是运用语言中的CARET包得出的最佳的变量个数,可能在实际临床实践中缺乏实用性,或许后续通过其他方法可以对变量数进行优化。其次本研究是单中心的研究,纳入的样本量较少,因缺失值较多导致部分变量被迫删除了,若增加样本容量,完善变量的收集,会得到更接近真实结果的数据。本研究目前只是一项探索性研究,还需要更多人群样本的验证。
综上,随机森林模型对在AMI的患者中发生AKI有较好的预测能力,在临床实践中能够提供有效的参考。
利益冲突 所有作者均声明不存在利益冲突
[1] | Reed GW, Rossi JE, and Cannon CP. Acute myocardial infarction[J]. Lancet (London, England), 2017, 389(10065): 197-210. DOI:10.1016/S0140-6736(16)30677-8 |
[2] | Ronco C, Bellasi A, di Lullo L. Cardiorenal syndrome: an overview[J]. Adv Chronic Kidney Dis, 2018, 25(5): 382-390. DOI:10.1053/j.ackd.2018.08.004 |
[3] | 吴淡森, 石松菁. "肾" 事风云: 再谈急性肾损伤的基础与临床研究[J]. 中华急诊医学杂志, 2019, 28(9): 1066-1070. DOI:10.3760/cma.j.issn.1671-0282.2019.09.002 |
[4] | McCullough PA, Choi JP, Feghali GA, et al. Contrast-induced acute kidney injury[J]. J Am Coll Cardiol, 2016, 68(13): 1465-1473. DOI:10.1016/j.jacc.2016.05.099 |
[5] | Xu FB, Cheng H, Yue T, et al. Derivation and validation of a prediction score for acute kidney injury secondary to acute myocardial infarction in Chinese patients[J]. BMC Nephrol, 2019, 20(1): 195. DOI:10.1186/s12882-019-1379-x |
[6] | James MT, Samuel SM, Manning MA, et al. Contrast-induced acute kidney injury and risk of adverse clinical outcomes after coronary angiography: a systematic review and meta-analysis[J]. Circ Cardiovasc Interv, 2013, 6(1): 37-43. DOI:10.1161/CIRCINTERVENTIONS.112.974493 |
[7] | Mody P, Wang T, McNamara R, et al. Association of acute kidney injury and chronic kidney disease with processes of care and long-term outcomes in patients with acute myocardial infarction[J]. Eur Heart J Qual Care Clin Outcomes, 2018, 4(1): 43-50. DOI:10.1093/ehjqcco/qcx020 |
[8] | Marenzi G, Cosentino N, Bartorelli AL. Acute kidney injury in patients with acute coronary syndromes[J]. Heart, 2015, 101(22): 1778-1785. DOI:10.1136/heartjnl-2015-307773.[LinkOut |
[9] | 韩玉, 施海龙, 曲波, 等. 随机森林方法在医学中的应用[J]. 中国预防医学杂志, 2014, 15(1): 79-81. DOI:10.16506/j.1009-6639.2014.01.006 |
[10] | 赵梦蝶, 孙九爱. 机器学习在心血管疾病诊断中的研究进展[J]. 北京生物医学工程, 2020, 39(2): 208-214. DOI:10.3969/j.issn.1002-3208.2020.02.015 |
[11] | 孙妍蓓, 刘必成, 邹芸, 等. 1371例急性心肌梗死后急性肾损伤患者的临床分析[J]. 中华肾脏病杂志, 2014, 30(10): 725-731. DOI: 10.3760/cma.j.issn.1001-7097.2014.10.001.[万方] |
[12] | 中华医学会心血管病学分会, 中华心血管病杂志编辑委员会. 急性ST段抬高型心肌梗死诊断和治疗指南[J]. 中华心血管病杂志, 2010, 38(8): 675-690. DOI:10.3760/cma.j.issn.0253-3758.2010.08.002 |
[13] | Levey AS, James MT. Acute Kidney Injury[J]. Ann Intern Med, 2017, 167(9): ITC66-ITC80. DOI:10.7326/AITC201711070 |
[14] | 裴源源, 马云晖, 马晓路, 等. 急性心肌梗死病例致急性肾损伤危险因素分析[J]. 中华急诊医学杂志, 2016, 25(9): 1166-1170. DOI:10.3760/cma.j.issn.1671-0282.2016.09.014 |
[15] | 蒋远霞, 唐艳, 易扬, 等. 高尿酸血症是脓毒症患者发生急性肾损伤的独立危险因素[J]. 中华急诊医学杂志, 2020, 29(9): 1178-1183. DOI:10.3760/cma.j.issn.1671-0282.2020.09.008 |
[16] | Kuhn M WJ, Weston S, et al. CARET: classification and regression training. Available from: https://CRAN.R-project.org/package=caret. |