中华急诊医学杂志  2025, Vol. 34 Issue (2): 246-253   DOI: 10.3760/cma.j.issn.1671-0282.2025.02.018
中国心脏大血管术后患者谵妄风险预测模型的系统评价
何晓娣1,2 , 王伊钶1,2 , 陈媛儿1,2 , 沈航1,2 , 兰美娟1 , 宋剑平1     
1. 浙江大学医学院附属第二医院护理部,杭州 310009;
2. 心脏大血管外科, 杭州 310009

心脏及大血管术后谵妄(postoperative delirium of cardiovascular surgery,PODOCVS)是一种以注意力不集中、意识受损和认知及定向障碍为特征的急性脑功能障碍,临床表现为急性起病、谵妄严重程度和周期的波动性进展,是心脏大血管术后最常见的并发症之一[1],通常发生在术后1周内,尤以术后24~72 h多见[2-3]。研究报道PODOCVS发生率可达26%~52%[4],医疗支出超过1640亿美元/年[5]。PODOCVS的发生将导致患者术后并发症增加、机械通气时间、住院时间延长、长期护理需求和高病死率等,其危险因素包括高龄、体外循环、围手术期镇痛药、苯二氮卓类药物和心脏药物的使用等[4, 6]。利用预测模型早期预测PODOCVS发生风险并及时干预,可大幅度降低谵妄发生率、缩短住院时间和医疗费用、减少患者术后并发症发生率以及降低死亡风险[5]。目前,国内已开发出多款PODOCVS预测模型,分为传统统计模型和机器学习模型。机器学习模型可处理复杂、多维的数据,其算法不受传统统计方法的限制,但其预测性能是否优于传统统计模型尚不明确[7]。中国心脏大血管手术通常为体外/非体外循环冠脉搭桥、瓣膜置换及修补、主动脉置换及其他心脏大血管术式等,现存PODOCVS预测模型可分为心脏大血管术后综合和(或)亚型预测模型,其临床应用价值仍有待验证。因此,需充分评估模型开发质量、预测性能和适用性[8]。研究[8-10]指出基于非中国患者队列开发的预测模型本土适用性差,医护人员应谨慎选择。综上所述,本研究系统评价中国PODOCVS预测模型,比较不同模型间的性能优劣,以期为中国PODOCVS预测模型的构建、遴选及应用提供参考。

1 资料与方法 1.1 纳入与排除标准

纳入标准:(1)研究对象:中国心脏术后患者;(2)研究内容:PODOCVS预测模型,并描述模型构建和(或)验证的过程;(3)结局指标:术后谵妄。排除标准:(1)通过各种渠道均无法获得数据的文献;(2)非中文或英文文献;(3)排除在已有模型的基础上增加指标的研究;(4)会议摘要、综述等;(5)仅涉及PODOCVS危险因素,但没有构建预测模型的研究;(6)谵妄亚型;(7)模型成分 < 2;(8)非中国患者队列;(9)年龄 < 18岁。

1.2 文献检索

系统检索The Cochrane Library、PubMed、EMbase、Web of Science、CNKI、VIP、Wang Fang Date中有关中国PODOCVS预测模型的相关研究,检索时限为建库至2024年5月20日,同时追溯纳入文献的参考文献,以补充相关文献。中文检索词包括:心脏手术、心血管手术、心胸手术、心脏术后、心内直视术、冠状动脉旁路移植术、冠状动脉搭桥术、瓣置换术、瓣膜手术、体外循环、A型主动脉夹层、主动脉夹层、B型主动脉夹层、术后谵妄、术后认知功能障碍、谵语、神经系统并发症、预测模型、风险预测、模型、风险评分、ROC曲线、曲线下面积等。英文检索词包括:cardiac surgical procedur、Cardiac surgery、cardiovascular surgery、heart surgery、coronary artery bypass grafting、CABG、extracorporeal circulation、type A aortic dissection、type B aortic dissectionaortic dissection、Subacute Deliriums、delirium、Postoperative delirium、Delirium of Mixed Origin、deliri*’ OR psychosis、intensive care delirium、Neurological complications、risk prediction、model、risk score、risk assessment等。检索均采取主题词与自由词联合检索的方式。

1.3 文献筛选及质量评价

文献筛选、数据提取、偏倚风险评价均由2名研究员独立完成并交叉核对,当结果不一致时,咨询第3名研究员协助判断。2名研究员根据纳入排除标准严格筛选文献,使用预测模型系统评价数据提取清单(CHARMS)提取数据,提取内容包括数据来源、预测因素评估方式、缺失数据处理方法、分类变量的处理方法等数据[11]。采用预测模型偏倚风险评价工具(PROBAST)从研究对象、预测因素、结果和分析4个领域评估模型的偏倚风险,从研究对象、预测因素、结果3个领域评估模型的适用性,最后依据“短板理论”综合各领域评价结果,对模型的偏倚风险和适用性做出整体评价[12]

2 结果 2.1 文献筛选结果及一般特征

检索数据库共获得3 963篇相关文献,经逐层筛选,最终纳入文献23篇,包括20个模型开发研究[1, 13-31]及3个对于已建立模型的外部验证研究[32-34],文献筛选流程及结果见图 1。中国心脏术后POD发生率为3.6%~36%,纳入研究的基本特征及预测结局见表 1

注:检索的数据库及检出文献数具体如下:PubMed(n=1 143)、Embase(n=669)、Web of Science(n=1 542)、Cochrane Library(303)、CNKI(n=56)、Wan Fang Data(n=233)和VIP(n=18) 图 1 文献筛选流程及结果

表 1 纳入研究基本特征
纳入研究 地区 研究设计 验证方式 随访时间 患者诊断 结局事件 样本量 建模数量 模型呈现形式 预测因子
(%) 男/女
刘海棠2021[19] 海南 前瞻性队列研究 开发及验证 术后入住ICU3 d内 行开胸心脏外科手术 谵妄(9.12) 274(188/86) (EPV =6.25) 1 老年患者心脏术后谵妄发生风险列线图 年龄、查尔森合并症指数、CPB、术中低血压
吕晓青2017[24] 北京 回顾性队列研究 开发及验证 住院期间 TAAD术后 神经系统并发(12.7) 411(294/117) (EPV =7.43) 1 TAAD术后神经系统并发症分类树风险模型 机械通气时间、急性夹层、年龄、脑梗病史、手术史、CABG、直接胆红素水平
李雪苹2022[25] 温州 回顾性队列研究 开发及验证 住院期间 TAAD术后 谵妄(20.82) 245(194/51) (EPV =8.50) 1 TAAD术后谵妄风险预测评分模型 年龄 > 55.50岁、男性、术前血乳酸值> 1.85 mmol/L、深低温停循环时间 > 36.50 min、ICU停留时间 > 8.50 d、术后合并其他并发症
黄宛冰2023[17] 武汉 回顾性队列研究 开发及验证 术后30 d B型主动脉夹层术后 谵妄(14.94) 559(484/75) (EPV =16.70) 1 术后谵妄列线图 年龄≥60岁、晕厥、入住ICU、入院中性粒细胞计数 > 6.3×109/L、术后eGFR < 90 mL/(min·1.73 m2)
胡霄竹2024[15] 北京 回顾性队列研究 开发及验证 ICU住院期间 CAGB术后 谵妄(12.5) 1067(801/266) (EPV =16.67) 1 CABG术后谵妄风险列线图 初中以下学历、术前睡眠障碍、糖尿病史、LVEF≤45%、轻度贫血、低蛋白血症、CPB、呼吸机使用≥48 h
孙运良2024[13] 南京 回顾性队列研究 开发及验证 非体外循环CAGB术后 谵妄(23.02) 265(-/-) (EPV =10.17) 1 DynMon模型 HbA1c≥7%、MMSE评分 < 27分、NRS2002评分≥3分、LVEF < 54%、酸碱平衡紊乱、电解质紊乱
左都坤2023[16] 重庆 病例对照实验 开发及验证 心脏手术术后3 d内 心脏术后 谵妄(5.56) 684(323/361) (EPV =76.06) 1 心脏术后谵妄风险预测模型 术前外周血氧饱和度、术前局部脑氧饱和度、术前收缩压、术后睡眠评分、年龄
张丹丹2023[32] 汕头 前瞻性队列研究 外部验证 患者术后24 h至出院 心胸外科等外科术后老年患者(≥60岁) 谵妄(18.40) 636(-/-) (EPV =7.314) 2 PROPDESC模型/MDP模型 年龄、ASA身体状况分级系统、NYHA分级、手术风险、MoCA中的“连续减法任务”、重复2个句法复杂的句子/年龄、急诊入院(非择期手术)、白细胞计数(> 12×109/L)、血红蛋白(< 10 g/dL)、肌酐(> 1.5 mg/dL)、痴呆、慢性阻塞性肺疾病、房颤、精神障碍、抗麻醉剂、骨折、压力性损伤(任何阶段)、红细胞输血、跌倒风险评分、入住ICU、共病评分
杨海2023[1] 泸州 回顾性队列研究 开发及验证 住院期间 心脏术后 谵妄(28.60) 367(172/195) (EPV =4.998) 5 RF/SVM/RBFNN/KNN/KRR 年龄、教育程度、吸烟史、饮酒史、视力障碍、听力障碍、ASA分级、高血压史、糖尿病史、房颤史、颈动脉狭窄、血红蛋白含量、白蛋白含量、手术方式、CPB时间、ACC时间、麻醉时间、手术时间、ICU停留时间、术后镇静、住院时间
王玉伟2023[14] 郑州 回顾性队列研究 开发及验证 ICU住院期间 TAAD术后 谵妄(31.00) 200(161/39) (EPV =8.86) 1 TAAD患者术后谵妄风险预测模型 性别、年龄 > 54.60岁、术前血乳酸值> 1.96 mmol/L、术中深低温停循环时间 > 35.70 min、术后住ICU时间 > 8.3 d、术后急性肾功能不全、术后感染
高雯2021[22] 杭州 回顾性队列研究 开发及验证 ICU住院期间(≥24 h) 心脏术后ICU患者 谵妄(19.30) 595(381/214) (EPV =19.14) 1 心脏外科ICU谵妄早期预测诺方图 年龄、饮酒、认知功能受损、术前房颤、手术时长、EUROⅡ评分
洪亮2020[21] 南京 回顾性病例对照研究 开发及验证 ICU住院期间 心脏术后 谵妄(5.48) 3397(1939/1458) (EPV =23.26) 1 心脏手术后谵妄列线图 老年、脑血管疾病史、手术时间长、术中血压变异率高、术后Hb < 100 g / L、机械通气时间延长、左心室收缩功能不全、应用去甲肾上腺素
徐萍2022[20] 杭州 前瞻性队列研究 开发及验证 住院期间 老年心脏直视术后 谵妄(26.29) 175(98/77)(EPV =9.2) 1 老年心脏直视术后患者谵妄风险预测模型 年龄、主动脉阻断时间、是否有低氧血症、是否应用咪达唑、焦虑抑郁量表评分
黄琦2022[18] 辽宁 前瞻性观察性队列研究 开发及验证 术后7 d内或至出院前 心脏术后 谵妄(21.30) 710(468/242) (EPV =8.41) 6 GBDT/SVM/RF/LR/KNN/DNN 年龄、独居、BMI、PreHCT、文化程度、房颤、糖尿病、二尖瓣手术、MMSE评分、CPB、GAD-7评分、ICU停留时间、PHQ-9评分、寒颤、肺部疾病史、术前暂停手术、外周血管疾病史、疼痛评分
赵艳艳2022[23] 武汉 开发及验证 AD患者麻醉苏醒至术后5 d AD术后 谵妄(36.00) 410(322/58) (EPV =21.14) 1 AD术后谵妄风险预测模型 APACHEⅡ评分、低氧、便秘、保护性约束时长、营养高风险、CPB、舒乐安定的使用
Li 2024[28] 广东 回顾性队列研究 开发及验证 ICU住院时间 > 48h至术后7 d CPB心脏瓣膜术后 谵妄(28.00) 507(207/300) (EPV =4.57) 7 RF/LR/SVC/KNN/GNB/GBDT/感知器 性别、年龄、受教育程度、身高、体重、酗酒、吸烟、冠心病、脑梗、糖尿病、高血压、LVEF、CPB时间、ACC时间、麻醉时间、IABP使用、ECMO使用、白细胞计数、中性粒细胞计数、淋巴细胞计数、血尿素氮、总胆红素、血清肌酐、血清白蛋白、ph值、PaCO2、PaO2、钠、钾、葡萄糖、疼痛评分
Yang 2024[30] 泸州 回顾性队列研究 开发及验证 心脏术后(≥20岁) 谵妄(23.40) 367(172/195) (EPV =5) 5 RF/SVM/RBFNN/KNN/KRR 年龄、血红蛋白、白蛋白、吸烟、饮酒、视力障碍、听力障碍、文化程度、高血压史、糖尿病史、心房颤动史、颈动脉狭窄、体外循环时间、主动脉阻断时间、麻醉时间、手术时间、术后镇静时间、ICU停留时间、住院时间、体外循环冠状动脉旁路移植术、房间隔缺损或室间隔缺损修补术
Zhao 2024[29] 南京 回顾性队列研究 开发及验证 术后第1至3 d内 CPB心脏术后 谵妄(25.00) 885(565/320) (EPV =27.66) 4 Catboost/ANN/XGboost/RF 术前:年龄、术前脑血管疾病、术前MMSE评分、ASA分级、文化程度、术前尿素、术前肌酐、术前白蛋白/术后:APACHEⅡ评分、术前MMSE评分、CPB时间、术前脑血管疾病、心律失常病史
Cai 2022[31] 上海 前瞻性队列研究 开发及验证 术后5 d内 心脏后ICU患者 谵妄(10.86) 654(397/257) (EPV =7.1) 2 第一阶段预测模型/第二阶段预测模型 第一阶段:年龄、BMI、Barthel ADL指数、血白蛋白、总胆红素、HCV毒抗体阳性/第二阶段:年龄、血白蛋白、TBIL、HCV抗体阳性、手术时间、总出血量、术中超滤、APACHⅡ评分、心率、平均动脉压
He 2021[26] 南京 回顾性队列研究 开发及验证 住院期间 TAAD术后 谵妄(17.8) 438(315/123) (EPV =9.75) 1 TAAD术后谵妄风险预测模型 吸烟、糖尿病、既往心血管手术、EF、主动脉阻滞时间、急性肾损伤、低心输出量综合征、肺部并发症
Lee 2017[33] 香港 前瞻性队列研究 外部验证 患者出院或ICU谵妄的诊断时间 心脏术后ICU成年患者 谵妄(13.8) 600(413/187) (EPV =8.28) 2 E-PRE-DELIRIC模型/ Katznelson模型 年龄、APACHEⅡ评分、昏迷、入院类别、感染、代谢性酸中毒、吗啡使用、镇静、血尿素氮、紧急入院/红细胞输注 > 5个单位、围手术期IABP支持、术前抑郁、术前血肌酐150 μmol/L、年龄60岁、联合CABG(瓣膜)手术、术前使用他汀类药物
Gao 2021[34] 杭州 回顾性队列研究 外部验证 ICU住院期间 心脏后ICU成年患者 谵妄(16.6) 725(483/242) (EPV =13.8) 1 E-PRE-DELIRIC模型 年龄、认知功能障碍、酗酒史、入院类别(手术)、紧急入院、入住ICU时MAP、血尿素氮、皮质类固醇的使用、呼吸衰竭(定义为入住ICU后 < 24 h需要或预期的非选择性机械通气或无创通气)
Tian 2023[27] 北京 回顾性队列研究 开发及验证 心脏术后 谵妄(3.6) 57180(37502/19678) (EPV=297.86) 3 心脏术后谵妄动态评分系统(术前/ICU入院/ICU入院后≥24 h) LVEF ≤45%、血清肌酐 > 100 μmol/L、紧急手术、冠脉疾病/ LVEF≤45%、血清肌酐 > 100 μmol/L、紧急手术、冠脉疾病、出血量 > 600 mL、术中血小板使用、术中血浆使用/血清肌酐 > 100 μmol/L、冠脉疾病、出血量 > 600 mL、术中血小板使用、术中血浆使用、术后LVEF≤45%
注:CPB:体外循环;CABG:冠状动脉旁路移植术;COPD:慢性阻塞性肺病;CVD:心血管疾病;TAAD:Stanford A型主动脉夹层;AD:主动脉夹层;FI:衰弱指数;CPB2rSO2decrease:体外循环中脑氧饱和度较基线值下降最大幅度;CPB2rSO2lowest:体外循环中脑氧饱和度最低值;IABP:主动脉内球囊泵;ECMO:体外膜肺氧合;TEE:经食道超声;BMI:身体质量指数;Pre HCT:术前红细胞积压;HCV:丙型肝炎病毒;GAD-7评分:焦虑评分;PHQ-9评分:抑郁评分;TMTB:连线测试B;MoCA:蒙特利尔认知评估量表;EUROⅡ:: 欧洲心脏手术风险评估系统Ⅱ;SMMSE:标准化迷你精神状态检查GDS:老年抑郁量表;TIA:卒中和(或)短暂性脑缺血发作;MAP:平均动脉压;HbA1c:糖化血红蛋白;eGFR:估算肾小球滤过率;T3:三碘甲状腺素T3抗体;BIS:双谱指数;PSI:患者状态指数;TCA:全循环骤停,CI:心脏指数;PP:灌注压;SR:抑制比;ACC:主动脉交叉夹;CV:变异系数;rSO2:脑区域氧饱和度;ARV:平均真实变异性;MAP:平均动脉压;AQT:认知速度快速测试;HADS:医院焦虑抑郁量表;Mini-Cog:简易认知评估量表;Barthel指数:患者自理能力评估量表;MMSE:简易智力状态检查量表;NRS2002:营养风险筛查2002;NYHA分级:纽约心脏协会分级;ASA评分:美国麻醉医师协会麻醉风险评分表;LVEF:左心室射血分数;EF:射血分数;APACHEⅡ评分:急性生理及慢性健康状况评分Ⅱ;EPV:每个自变量的事件数(events per variable),指研究对象中较少组的数量除以自变量的个数
2.2 模型构建情况与预测性能

23项研究报告了49个PODOCVS预测模型。研究对象方面,4项研究[14, 24-26]针对A型主动脉夹层(Type A active dissection,TAAD)术后患者建模,其中He等[26]所建立的TAAD术后谵妄风险预测模型预测性能最佳。5项研究[13, 15, 17, 23, 28]基于特异性心脏大血管术后患者,其中1项[13]基于非体外循环(cardiopulmonary bypass,CPB) 冠状动脉旁路移植术(Coronary Artery Bypass Grafting,CABG)患者,1项[15]针对CABG术后患者,1项[17]针对B型主动脉夹层患者,1项[23]针对主动脉夹层患者,1项[28]CPB心脏瓣膜术后患者。张丹丹等[32]基于老年心胸外科术后患者队列对两款PODOCVS风险预测模型进行外部验证,其中MDP模型预测效果最佳。13项研究针对心脏大血管术后患者建模,其中洪亮等[21]建立的回归模型性能最佳。建模方法方面,15项[4, 13-16, 18-23, 25-28]研究采用了传统逻辑回归(LR)模型,5项[1, 18, 28-30]研究应用了随机森林(RF)模型,4项[1, 18, 28, 30]研究应用了加权K-邻近算法(KNN)建模,其余建模方法出现频率较低。其中,LR、RF为排列前二的最佳建模方式,而在黄琦等[18]研究中梯度决策提升树算法(GBDT)优于LR、RF和KNN,Zhao等[29]研究中人工神经网络算法(ANN)优于RF。纳入模型的区分度主要通过AUC评估,其中6项[9, 10, 16, 29, 32, 33]研究未报告模型建立的ACU值,其余研究的AUC范围为0.67~0.98;17项研究开展了模型内部验证,AUC为0.659~0.903。仅8项[4, 9, 14, 25-26, 29, 32-33]研究开展了模型外部验证,AUC范围为0.544~0.896,其中2项[10, 29]研究同时进行了内部与外部验证;3项[9, 32, 33]研究为现有模型的外部验证研究,Gao等[9]研究中E-PRE-DELIRIC模型在大陆心脏大血管术后患者队列中预测能力欠佳(AUC=0.544)。9项[14, 15, 20, 22, 25, 27, 32-34]研究报告采用Hosmer-Lemeshow检验(P > 0.05)报告模型校准度,其中Lee等[33]和Tian等[27]研究中Katznelson模型和术前谵妄动态评分系统拟合优度不佳(P < 0.05)。4项[13, 17, 19, 23]研究报告了模型校准曲线,6项[1, 16, 18, 24, 28, 30]研究提供了模型识别准确度数据,其余研究暂未报告校准数据。模型中出现频率较高的预测因子为年龄(20次)、ICU停留时间(9次)、CPB使用(8次)、EF(7次)、血清肌酐数值(6次)和糖尿病史(6次),纳入模型的预测性能见表 2

表 2 纳入模型的预测性能
纳入研究 建模方式 验证方式 样本量 模型性能 最优建模方法
(A/B/C) AUC 校准方法
刘海棠2021[19] 多因素Logistic回归分析 Bootstrap验证 274/274/— A: 0.871
B: 0.876
校准曲线 LR
吕晓青2017[24] DT 错分概率Risk统计量 411/—/— A: 0.770
B: 0.843
识别准确度: A: 90.5% DT
李雪苹2022[25] 二元Logistic回归分析 外部验证 —/—/51 A: 0.926
C: 0.896
HL: A: P=0.393
C: P=0.359
LR
黄宛冰2023[17] 多变量Cox回归分析 Bootstrap验证 559/559/— A: 0.774
B: 0.762
校准曲线 Cox
胡霄竹2024[15] 多因素Logistic回归分析 内部验证(随机拆分验证) 747/320/— A: 0.736
B: 0.754
HL: A: P=0.748
B: P=0.808
LR
孙运良2024[13] 多因素Logistic回归分析 Bootstrap验证 256/—/— A: 0.753 校准曲线 LR
左都坤2023[16] LR/XGBoost 内部验证(随机拆分验证) 479/205/— B: 0.732/0.659 识别准确度: B: 94.7/95.1 LR
张丹丹#2023[32] 不适用 外部验证 —/—/636 C: 0.87/0.89 HL: C: P=0.561/0.510 不适用
杨海2023[1] RF/SVM/RBFNN/KNN/KRR 内部验证(10-FCV) 330/37/— A: 0.9202/0.8939/0.8969/0.7330/0.9009 识别准确度: A: 87.99%/84%/67.45%/75.20%/84.17% RF
王玉伟2023[14] 多因素Logistic回归分析 外部验证 200/—/25 A: 0.913
C: 0.884
HL: A: P=0.324
C: P=0.286
LR
高雯2021[22] 多因素Logistic回归分析 内部验证(随机拆分验证) 396/199/— A: 0.833
B: 0.786
HL: A: P=0.448
B: P=0.217
LR
洪亮2020[21] 逐步Logistic回归分析 内部验证(随机拆分验证) 2378/1019/— A: 0.932 LR
徐萍2022[20] 多因素逐Logistic回归分析 内部验证(随机拆分验证) 175/74/— A: 0.879
B: 0.903
HL: A: P=0.257
B: P=0.673
LR
黄琦2022[18] GBDT/ SVM/ RF/LR/KNN/DNN 内部验证(5-FCV) 533/177/— A: 0.86/0.79/0.85/0.67/0.67/0.78 识别准确度: A: 77%/71%/76%/63%/63%/75% GBDT
赵艳艳2022[23] 多因素Logistic回归分析 Bootstrap验证 410/410/— A: 0.883 校准曲线:曲线斜率接近1 LR
Li 2024[28] RF/LR/SVC/KNN/GNB/GBDT/感知器 内部验证(StratifiedShuffleSplit法) 405/103/— A: 0.92/0.80/0.83/0.78/0.79/0.90/0.77 识别准确度: A: 83%/76%/83%/76%/76%/84%/78% RF
Yang 2024[30] RF/SVM/RBFNN/KNN/KRR 内部验证(10-FCV) 330/36/— A: 0.920/0.894/0.897/0.733/0.901 识别准确度: A: 87.99%/84.21%/85.82%/75.20%/84.17% RF
Zhao 2024[29] Catboost/ANN/XGboost/RF 内部验证(10-FCV)/外部验证 620/265/100 术前
B: 0.855/0.929/0.796/0.831
C: 0.580/0.776/0.655/0.63
术后
B: 0.874/0.925/0.783/0.838
C: 0.655/0.684/0.580/0.544
ANN
Cai 2022[31] 多因素Logistic回归分析 Bootstrap验证/外部验证 654/654/214 第一阶段B: 0.76 C: 0.76
第二阶段B: 0.85 C: 0.78
LR
He 2021[26] 多因素logistic回归 外部验证 438/—/30 A: 0.98 LR
Lee 2017[33] 不适用 外部验证 —/—/600 C: 0.75/0.62 HL: C: P=0.99/0.04 不适用
Gao 2021[34] 不适用 外部验证 —/—/725 C: 0.54 HL: C: P=0.027 不适用
Tian 2023[27] 多因素Logistic回归分析 内部验证(随机拆分验证) 45744/11436/— A: 0.68/0.74/0.75
B: 0.67/0.74/0.74
HL: A: P=0.01/0.49/0.35 LR
注:AUC:受试者工作特征曲线下面积;HL:Hosmer-Lemeshow,模型拟合指标;A:训练集;B:内部验证集;C:外部验证,即采用未参与模型构建的数据进行验证;—:未报告;#:现有模型外部验证;5-FCV:5倍交叉验证;10-FCV:10倍交叉验证;RF:随机森林模型;SVM:支持向量机;RBFNN:径向基核神经网络;GNB:高斯过程模型;LR:逻辑回归;GBDT:梯度提升决策树;DNN:深度神经网络;RBFNN:径向基核神经网络;KRR:核岭回归;XGBoost:极限梯度提升树;Catboost:分类提升;ANN:人工神经网络;BNB:伯努利朴素贝叶斯模型;DRSQ:谵妄风险筛查问卷;CDT:分类决策树;BBN:贝叶斯信念网络;NB:naïve贝叶斯;DT:决策树模型;LGBM:光梯度增强机;GBC:梯度增强分类器;ET:额外树分类器;ENS:集成分类器;PRE-DELIRIC:ICU患者谵妄预测;E-PRE-DELIRIC:ICU患者谵妄早期预测;KNN:加权K-邻近算法;DT:决策树
2.3 偏倚风险及适用性评价

在研究对象领域,仅7项[16, 18-20, 31-33]研究偏倚风险低,其主要原因在于多数研究设计为回顾性队列、病例对照研究。2项研究在预测因子领域存在高偏倚风险,吕晓青等[24]未报告“是否是在不清楚结果数据的情况下评估预测因子”,Li等[28]将30个患者术前及术后实验室及临床特征数据均纳入机器学习中,因此无法评估“模型所包含的预测因子是否均有效”。3项研究在结果领域存在高偏倚风险,孙运良等[13]、Yang等[30]及Tian等[27]研究中均未报告明确随访时间,导致无法评估预测因子评估和结果确定的时间间隔是否合理。纳入研究分析领域均存在高偏倚风险。其中仅5项[16, 21, 23, 27, 29]研究中模型开发训练集每个自变量的事件数(events per variable,EPV)[35]≥20,3项[32-34]现有模型外部验证研究样本量≥100,剩余研究普遍存在建模或验证样本量不足等现象。4项[9, 27, 28, 31]研究采用Miss forest插补法、多重填补、模式填充法处理缺失数据,2项[21, 32]研究未对缺失值处理方法进行报告,剩余研究直接排除了数据缺失的病例。预测因子筛选需根据已有临床知识,测量的可靠性、一致性、适用性、可及性和测量成本进行选择[36],5项[1, 13, 15, 21, 29]研究仅凭借单因素分析法筛选变量,1项[24]研究未报告变量筛选方法。5项[13-15, 19, 24]研究未报告数据中存在的复杂性,1项[23]研究未对复杂数据进行解释说明,结果发现中国谵妄预测模型的建立普遍忽视数据复杂性。6项[9, 21, 24, 26, 29, 31]研究未详尽报告模型区分度与校准度信息。6项[15-16, 20-22, 27]研究仅采用随机拆分法进行模型内部验证,3项[14, 25-26]研究进行了模型外部验证且未报告内部验证相关信息。3项[28-30]研究未报告回归系数是否与报告结果一致的信息。评价结果显示,所有研究在研究对象、预测因素、结果3个方面都有良好的适用性。模型偏倚风险和适用性评价情况见表 3~4

表 3 纳入研究的研究对象、预测因子、结果领域分析领域评价
纳入研究
刘海棠2021[19] Y Y Y Y Y Y Y Y Y Y Y N Y Y N Y NI Y Y Y
吕晓青2017[24] N Y Y NI Y Y Y Y Y Y Y N N Y N NI NI N Y Y
李雪苹2022[25] N Y Y Y Y Y Y Y Y Y Y N N Y N Y Y Y NI Y
黄宛冰2023[17] N Y Y Y Y Y Y Y Y Y Y N N Y N Y Y Y Y Y
胡霄竹2024[15] N Y Y Y Y Y Y Y Y Y Y N N Y N N NI Y N Y
孙运良2024[13] N Y Y Y Y Y Y Y Y Y NI N N Y N N NI Y Y Y
左都坤2023[16] Y Y Y Y Y Y Y Y Y Y Y Y Y Y N Y Y Y N Y
张丹丹2023[32] Y Y Y Y Y Y Y Y Y Y Y Y Y Y NI - Y Y - -
杨海2023[1] N Y Y Y Y Y Y Y Y Y Y N Y Y N N Y Y Y Y
王玉伟2023[14] N Y Y Y Y Y Y Y Y Y Y N Y Y N Y NI Y NI Y
高雯2021[22] N Y Y Y Y Y Y Y Y Y Y N Y Y N Y Y Y N Y
洪亮2020[21] N Y Y Y Y Y Y Y Y Y Y Y N Y NI N Y N N Y
徐萍2022[20] Y Y Y Y Y Y Y Y Y Y Y N N Y N Y Y Y N Y
黄琦2022[18] Y Y Y Y Y Y Y Y Y Y Y N Y Y N Y Y Y Y Y
赵艳艳2022[23] NI Y Y Y Y Y Y Y Y Y Y Y Y Y N Y N Y Y Y
Li 2024[28] N Y Y Y NI Y Y Y Y Y Y N Y Y Y Y Y Y Y NI
Yang 2024[30] N Y Y Y Y Y Y Y Y Y NI N Y Y N Y Y Y Y NI
Zhao 2024[29] N Y Y Y Y Y Y Y Y Y Y Y Y Y N N Y NI Y NI
Cai 2022[31] Y Y Y Y Y Y Y Y Y Y Y N Y Y Y Y Y NI Y Y
He 2021[26] N Y Y Y Y Y Y Y Y Y Y N N Y N Y Y NI NI Y
Lee 2017[33] Y Y Y Y Y Y Y Y Y Y Y Y Y Y NI - Y Y - -
Gao 2021[34] N Y Y Y Y Y Y Y Y Y Y Y Y Y Y - Y N - -
Tian 2023[27] N Y Y Y Y Y Y Y Y Y NI Y N Y Y Y Y Y N Y
注:Y:是/可能是;N:否/可能否;NI:不清楚;#:现有模型外部验证;①:所采取的数据来源是否合适?(队列、随机对照、巢式病例对照)②:纳排标准是否合适?③:预测因子的定义和评估对所有研究对象是否相同?④:是否是在不清楚结果数据的情况下评估预测因子?⑤:预测模型所包含的预测因子是否有效?⑥:结果的分类方法是否合理?⑦:结果的定义是否合理?⑧:结果的定义是否排除了预测因子?⑨:结果的定义对所有研究对象是否相同?⑩:确定结果时是否不清楚预测因子的信息?⑪:预测因子评估和结果确定的时间间隔是否合理?⑫:样本量是否合理?⑬:对连续和分类的自变量的处理是否合适?⑭:所有纳入对象是否均包含在统计分析中?⑮:缺失数据的纳入对象是否进行合适的处理?⑯:是否避免了采用单因素分析法筛选预测因子?⑰:数据的复杂性是否进行考虑?⑱:是否对预测模型性能进行评估?⑲:是否对预测模型过度拟合、欠拟合和最优拟合进行考虑?⑳:预测因子及其权重是否与报告的结果一致?

表 4 纳入模型的偏倚风险及适用性评价结果
纳入研究 偏倚风险 适应性 总体
研究对象 预测因子 结局 分析 研究对象 预测因子 结局 偏倚性 适用性
刘海棠2021[19] + + + - + + + - +
吕晓青2017[24] - - + - + + + - +
李雪苹2022[25] - + + - + + + - +
黄宛冰2023[17] - + + - + + + - +
胡霄竹2024[15] - + + - + + + - +
孙运良2024[13] - + - - + + + - +
左都坤2023[16] + + + - + + + - +
张丹丹#2023[32] + + + - + + + - +
杨海2023[1] - + + - + + + - +
王玉伟2023[14] - + + - + + + - +
高雯2021[22] - + + - + + + - +
洪亮2020[21] - + + - + + + - +
徐萍2022[20] + + + - + + + - +
黄琦2022[18] + + + - + + + - +
赵艳艳2022[23] - + + - + + + - +
Li 2024[28] - - + - + + + - +
Yang 2024[30] - + - - + + + - +
Zhao 2024[29] - + + - + + + - +
Cai 2022[31] + + + - + + + - +
He 2021[26] - + + - + + + - +
Lee#2017[33] + + + - + + + - +
Gao#2021[34] - + + - + + + - +
Tian 2023[27] - + - - + + + - +
注:+:低偏倚风险/适用性高;-:高偏倚风险/适用性低;#:现有模型外部验证
3 讨论

PODOCVS将带来严重后果[37],预防是减少PODOCVS发生和不良预后最有效的手段[4]。风险预测模型可有效预测PODOCVS的发生,因此近年来模型构建与验证研究逐渐增多,但是研究质量却有待评估。本研究纳入49个PODOCVS风险预测模型,尽管所有模型都具备较好的区分度,但在数据来源、对连续和分类自变量的处理、缺失数据处理等方式不当导致模型预测能力被高估,存在高偏倚风险。本研究大部分数据来源于单中心回顾性队列,并普遍由医护采用《重症监护PODOCVSRASS》进行PODOCVS评估,谵妄发生率低于国外前瞻性研究[4](3.6%~36%vs.26%~52 %),这可能与回顾性队列、样本缺乏代表性、回忆偏倚和评估人员测量偏倚有关,导致无法正确反应源人群中预测因素和预测结局间的关系[36]造成高偏倚风险。因此,未来可进行更多前瞻性多中心研究,开展心脏手术亚型人群研究,增加人群代表性,为患者提供个性化预防和治疗策略,对医护人员进行统一严格培训并采用盲法减少测量偏倚。

采用不恰当的统计方法或忽视重要的统计原则将增加预测模型的偏倚风险[36],本研究所有纳入中国PODOCVS预测模型均在分析领域存在高偏倚风险。样本量不足是研究普遍存在的问题,本研究多数模型EPV < 10,外部验证样本量不足100例,这将导致模型的过渡拟合和预测性能被高估[4]。多数研究在处理预测因子时毫无缘由地选择一个截点将其划分为二分类变量,却未补充内部验证和收缩回归系数调整。仅4项[9, 27-28, 31]研究详尽描述了缺失数据的处理方法,多数学者选择直接排除数据缺失病例,而缺失数据可能导致影响因素和结果之间关联存在偏倚,影响模型精度导致更宽的置信区间[38]。本研究纳入模型预测因子差异较大,仅1项[28]研究纳入心脏大血管术后患者所有实验室参数及临床特征,专家共识[3]提出白蛋白≤30 g/L、ICU噪声、围手术期输血(≥2 000 mL)等为心脏围术期POD发生的危险因素,却鲜少被纳入预测模型中,分析原因在于多数研究只采用单因素或多因素分析法筛选预测因子。AUC和Hosmer-Lemeshow检验是中国PODOCVS预测模型最常选择的区分度和校准度呈现形式,仅2项[29, 31]研究同时采用内部及外部验证,却未报告建模AUC和模型校准度数据,模型评价指标数据缺失极大降低了科学性解释和研究可重复性[39]。当结局事件过少、结局事件数/待筛选变量数比值过小、连续变量转为二分类变量、利用单变量分析或前进/后退自动筛选变量时,模型过渡拟合问题将尤为突出。因此,医护人员应在未来严格遵循PROBAST条目,补充模型内部验证和收回回归系数调整[36],依据指南、共识和专家咨询全面纳入实验室数据、生物标志物等相关因素,详尽报告建模及验证过程及数据,提高中国PODOCVS预测模型研究可重复性及可推广性。

近年来机器学习预测模型表现出了极大的潜力,可同时运算多维、复杂、大型患者病例和实验室数据,解决了仅凭单因素分析筛选预测因子的问题。然而本研究发现传统LR依然是中国PODOCVS预测模型建模的首选方式,且区分度较机器学习算法更佳,仅黄琦[18]和Zhao等[29]研究中GBDT和ANN优于传统算法。研究[40]指出,机器学习预测模型具有良好的预测性能但缺乏解释性。原因可能在于患者临床数据并非统一标准化采集,分析时经常面临数据缺失等问题,中国学者普遍直接排除样本的方法可能造成样本缺乏代表性等;另外,大型复杂数据处理仅适合实验室分析计算,临床难以实际使用和推广;机器学习可广泛纳入预测因子,但无法确定模型中包含的所有预测因子是否均有效。由于本研究纳入机器学习模型数量有限,无法准确判断传统算法与机器学习算法建模的优劣性。因此,以期未来展开更多研究以验证何种建模方式可更好的普及、推广、便捷地应用于临床PODOCVS的预测。

利益冲突  所有作者声明无利益冲突

作者贡献  何晓娣负责论文设计,论文撰写和修改;王伊钶负责数据核对与分析,论文撰写与修改;陈媛儿、宋剑平、沈航负责数据整理与分析;兰美娟、宋剑平负责审阅与经费支持

参考文献
[1] 杨海. 基于机器学习预测早期心脏术后谵妄发生的研究[D]. 泸州: 西南医科大学, 2023.
[2] Hu XY, Liu H, Zhao X, et al. Automated machine learning-based model predicts postoperative delirium using readily extractable perioperative collected electronic data[J]. CNS Neurosci Ther, 2022, 28(4): 608-618. DOI:10.1111/cns.13758
[3] 中国医疗保健国际交流促进会心脏重症分会. 心脏及大血管术后谵妄的防治中国专家共识[J]. 中华医学杂志, 2023, 103(45): 3635-3644. DOI:10.3760/cma.j.cn112137-20230719-00028
[4] Cai SN, Li JJ, Gao J, et al. Prediction models for postoperative delirium after cardiac surgery: Systematic review and critical appraisal[J]. Int J Nurs Stud, 2022, 136: 104340. DOI:10.1016/j.ijnurstu.2022.104340
[5] Zhang Y, Wan DH, Chen M, et al. Automated machine learning-based model for the prediction of delirium in patients after surgery for degenerative spinal disease[J]. CNS Neurosci Ther, 2023, 29(1): 282-295. DOI:10.1111/cns.14002
[6] Lin JL, Zheng GZ, Chen LW, et al. A nomogram model for assessing predictors and prognosis of postoperative delirium in patients receiving acute type A aortic dissection surgery[J]. BMC Cardiovasc Disord, 2023, 23(1): 72. DOI:10.1186/s12872-023-03111-3
[7] Christodoulou E, Ma J, Collins GS, et al. A systematic review shows no performance benefit of machine learning over logistic regression for clinical prediction models[J]. J Clin Epidemiol, 2019, 110: 12-22. DOI:10.1016/j.jclinepi.2019.02.004
[8] 贾盈盈, 胡欢婷, 胡婧妮, 等. 中国心力衰竭患者死亡风险预测模型的系统评价[J]. 中国胸心血管外科临床杂志, 2023, 38(10): 1036-1041. DOI:10.3969/j.issn.1000-3614.2023.10.006
[9] Gao W, Zhang YP, Jin JF. Validation of E-PRE-DELIRIC in cardiac surgical ICU delirium: a retrospective cohort study[J]. Nurs Crit Care, 2022, 27(2): 233-239. DOI:10.1111/nicc.12674
[10] Cai AP, Chen R, Pang CC, et al. Machine learning model for predicting 1-year and 3-year all-cause mortality in ischemic heart failure patients[J]. Postgrad Med, 2022, 134(8): 810-819. DOI:10.1080/00325481.2022.2115735
[11] Moons KGM, de Groot JAH, Bouwmeester W, et al. Critical appraisal and data extraction for systematic reviews of prediction modelling studies: the CHARMS checklist[J]. PLoS Med, 2014, 11(10): e1001744. DOI:10.1371/journal.pmed.1001744
[12] Moons KGM, Wolff RF, Riley RD, et al. PROBAST: a tool to assess risk of bias and applicability of prediction model studies: explanation and elaboration[J]. Ann Intern Med, 2019, 170(1): W1-W33. DOI:10.7326/M18-1377
[13] 孙运良, 司林杰, 陆真, 等. 非体外循环冠状动脉搭桥术后谵妄的DynNom预测模型构建[J]. 中国急救医学, 2024, 44(5): 391-396. DOI:10.3969/j.issn.1002-1949.2024.05.004
[14] 王玉伟, 李慧. 构建及验证基于Logistic回归的Stanford A型主动脉夹层术后谵妄风险预测模型效果[J]. 临床研究, 2023, 31(2): 7-11. DOI:10.12385/j.issn.2096-1278(2023)02-0007-05
[15] 胡霄竹, 韩晴, 屈丽楠, 等. 冠状动脉旁路移植术术后谵妄的危险因素分析及预测模型的建立[J]. 中国医药, 2024, 19(5): 679-683. DOI:10.3760/j.issn.1673-4777.2024.05.008
[16] 左都坤, 吴卓熙, 龙宗泓, 等. 基于机器学习算法构建心脏手术患者术后早期谵妄风险预测模型[J]. 陆军军医大学学报, 2023, 45(8): 753-758. DOI:10.16016/j.2097-0927.202301050
[17] 黄宛冰, 张玉芬, 吴前胜, 等. 基于Cox回归的Stanford B型主动脉夹层术后谵妄预测模型的构建[J]. 护理学杂志, 2023, 38(3): 27-31. DOI:10.3870/j.issn.1001-4152.2023.03.027
[18] 黄琦. 计算机辅助心脏手术患者术后谵妄风险预测模型的研究[D]. 沈阳: 中国医科大学, 2022. DOI: 10.27652/d.cnki.gzyku.2022.001299.
[19] 刘海棠, 唐倩芸, 周森. 老年患者心脏术后谵妄风险列线图预测模型的建立及验证[J]. 实用老年医学, 2021, 35(8): 840-844. DOI:10.3969/j.issn.1003-9198.2021.08.013
[20] 徐萍. 老年心脏直视术后患者谵妄风险预测模型的构建及验证[D]. 杭州: 浙江中医药大学, 2022. DOI: 10.27465/d.cnki.gzzyc.2022.000380.
[21] 洪亮, 孙加奎, 沈骁, 等. 心脏手术后谵妄的危险因素分析及预测模型构建[J]. 临床麻醉学杂志, 2020, 36(12): 1195-1200. DOI:10.12089/jca.2020.12.012
[22] 高雯. 心脏外科ICU谵妄早期预测模型构建及基于肠道微生态的谵妄机制初步研究[D]. 杭州: 浙江大学, 2021.
[23] 赵艳艳. 主动脉夹层患者术后谵妄风险预测模型的构建[D]. 十堰: 湖北医药学院, 2022.
[24] 吕晓青. A型主动脉夹层术后神经系统并发症风险因素分析及风险模型构建[D]. 北京: 北京工业大学, 2017.
[25] 李雪苹, 王磊, 张淮, 等. Stanford A型主动脉夹层患者术后谵妄风险预测评分模型的构建与效果验证[J]. 中华护理杂志, 2022, 57(8): 950-957. DOI:10.3761/j.issn.0254-1769.2022.08.009
[26] He JF, Ling Q, Chen YH. Construction and application of a model for predicting the risk of delirium in postoperative patients with type a aortic dissection[J]. Front Surg, 2021, 8: 772675. DOI:10.3389/fsurg.2021.772675
[27] Tian Y, Ji BY, Diao XL, et al. Dynamic predictive scores for cardiac surgery-associated agitated delirium: a single-center retrospective observational study[J]. J Cardiothorac Surg, 2023, 18(1): 219. DOI:10.1186/s13019-023-02339-6
[28] Li QY, Li JX, Chen JS, et al. A machine learning-based prediction model for postoperative delirium in cardiac valve surgery using electronic health records[J]. BMC Cardiovasc Disord, 2024, 24(1): 56. DOI:10.1186/s12872-024-03723-3
[29] Zhao XX, Li JL, Xie XH, et al. Online interpretable dynamic prediction models for postoperative delirium after cardiac surgery under cardiopulmonary bypass developed based on machine learning algorithms: a retrospective cohort study[J]. J Psychosom Res, 2024, 176: 111553. DOI:10.1016/j.jpsychores.2023.111553
[30] Yang T, Yang H, Liu Y, et al. Postoperative delirium prediction after cardiac surgery using machine learning models[J]. Comput Biol Med, 2024, 169: 107818. DOI:10.1016/j.compbiomed.2023.107818
[31] Cai SN, Cui H, Pan WY, et al. Two-stage prediction model for postoperative delirium in patients in the intensive care unit after cardiac surgery[J]. Eur J Cardiothorac Surg, 2022, 63(1): ezac573. DOI:10.1093/ejcts/ezac573
[32] 张丹丹, 张萍, 郭媛君, 等. PROPDESC和MDP谵妄风险预测模型在老年手术患者中的应用研究[J]. 中华现代护理杂志, 2023, 29(25): 3394-3401. DOI:10.3760/cma.j.cn115682-20221215-06015
[33] Lee A, Mu JL, Joynt GM, et al. Risk prediction models for delirium in the intensive care unit after cardiac surgery: a systematic review and independent external validation[J]. Br J Anaesth, 2017, 118(3): 391-399. DOI:10.1093/bja/aew476
[34] Gao W, Zhang YP, Jin JF. Validation of E-PRE-DELIRIC in cardiac surgical ICU delirium: a retrospective cohort study[J]. Nurs Crit Care, 2022, 27(2): 233-239. DOI:10.1111/nicc.12674
[35] 陈香萍, 张奕, 庄一渝, 等. PROBAST: 诊断或预后多因素预测模型研究偏倚风险的评估工具[J]. 中国循证医学杂志, 2020, 20(6): 737-744. DOI:10.7507/1672-2531.201910087
[36] 陈茹, 王胜锋, 周家琛, 等. 预测模型研究的偏倚风险和适用性评估工具解读[J]. 中华流行病学杂志, 2020, 41(5): 776-781. DOI:10.3760/cma.j.cn112338-20190805-00580
[37] 王宇, 张诚, 吴庆琛. 心脏外科手术患者术后谵妄的发生率及可干预危险因素: 一项基于倾向性评分匹配的前瞻性观察研究[J]. 解放军医学杂志, 2024, 49(10): 1110-1116. DOI:10.11855/j.issn.0577-7402.1535.2024.0304
[38] Cummings P. Missing data and multiple imputation[J]. JAMA Pediatr, 2013, 167(7): 656-661. DOI:10.1001/jamapediatrics.2013.1329
[39] Collins GS, Reitsma JB, Altman DG, et al. Transparent reporting of a multivariable prediction model for individual prognosis or diagnosis (TRIPOD): the TRIPOD statement. The TRIPOD Group[J]. Circulation, 2015, 131(2): 211-219. DOI:10.1161/CIRCULATIONAHA.114.014508
[40] Wang SW, Zhu XQ. Predictive modeling of hospital readmission: challenges and solutions[J]. IEEE/ACM Trans Comput Biol Bioinform, 2022, 19(5): 2975-2995. DOI:10.1109/TCBB.2021.3089682