中华急诊医学杂志  2022, Vol. 31 Issue (8): 1153-1158   DOI: 10.3760/cma.j.issn.1671-0282.2022.08.028
时序预测模型对广州市急救需求量的预测价值
王静1 , 江慧琳1 , 李双明2 , 曾睿2 , 刘佳1 , 李艳玲1 , 朱永城1 , 林建权2 , 陈晓辉1     
1. 广州医科大学附属第二医院急诊科,广州医科大学生物医学工程学院,广州 510260;
2. 广州市急救指挥中心,广州 510000
摘要: 目的 探讨时序预测模型中的差分自回归滑动平均(ARIMA)和自回归(AR)模型在预测广州市急救调度日出车数量方面的价值。方法 采用Matlab仿真软件对广州市2021年1月1日至2021年12月31日的急救调度出车记录分析计算日出车数量时间序列,对该序列进行时序预测模型辨识,得到ARIMA(1, 1, 1)、AR(4)以及AR(7)模型,利用这些模型对日出车数量做出预测拟合。ARIMA(1, 1, 1)模型将数据分为训练集和测试集,参数运算采用Prony方法,预测拟合未来的出车数量;AR(4)和AR(7)模型采用均匀系数,预测当天出车数量。结果 ARIMA(1, 1, 1)、AR(4)以及AR(7)都可以实现对日出车数量的有效预测,ARIMA(1, 1, 1)的预测拟合误差随着预测时间的延长下降。两个月内的急救调度日出车量预测拟合平均绝对百分比误差(MAPE)低于6%,结果基本都位于95%置信区间内,利用模型的残差分析验证了模型显著有效。结论 ARIMA模型可以对两个月内的急救调度日出车量做长期预测拟合,AR模型可以对急救调度日出车量做短期有效预测。
关键词: 差分自回归滑动平均模型    自回归模型    预测    急救调度    Matlab仿真    
The predictive value of time series forecasting model in prehospital emergency medical services demand in Guangzhou
Wang Jing1 , Jiang Huilin1 , Li Shuangming2 , Zeng Rui2 , Liu Jia1 , Li Yanling1 , Zhu Yongcheng1 , Lin Jianquan2 , Chen Xiaohui1     
1. School of Biomedical Engineering, Guangzhou Medical University, The Second Affiliated Hospital of Guangzhou Medical University, Guangzhou, 510260, China;
2. Guangzhou Emergency Medical Command Center, Guangzhou, 510000, China
Abstract: Objective To study the value of autoregressive integrated moving average (ARIMA) and autoregressive (AR) models in predicting the daily number of ambulances in prehospital emergency medical services demand in Guangzhou. Methods Matlab simulation software was used to analyze the emergency dispatching departure records in Guangzhou from January 1, 2021 to December 31, 2021. A time series for the number of ambulances per day was calculated. After identifying the time series prediction model, ARIMA(1, 1, 1), AR(4) and AR(7) models were obtained. These models were used to predict the number of ambulances per day. ARIMA(1, 1, 1) model divided the time series into the training set and test set. Prony method was used for parameter calculation, and the demands of number of ambulances of the next few months were forecasted. AR(4) and AR(7) models used uniformity coefficient to forecast the demands of number of ambulances on that very day. Results ARIMA(1, 1, 1), AR(4) and AR(7) can effectively predict the number of ambulances per day. The prediction fitting error of ARIMA (1, 1, 1) decreased with the extension of prediction time. The mean absolute percentage error (MAPE) of forecast results of daily vehicle output of emergency dispatching within two months was less than 6% and the predicted results were almost within the 95% confidence interval. The residual analysis of the model verified that the model was significantly effective. Conclusions ARIMA model can make a long-term within two months and effective prediction fitting of the daily vehicle output of emergency dispatching, and AR model can make a short-term and effective prediction of the daily vehicle output of emergency dispatching.
Key words: Autoregressive Integrated Moving Average model    Autoregressive model    Forecast    Emergency dispatching    Matlab simulation    

院前急救具有很强的时效性,延迟1 min,心博呼吸骤停患者的病死率随之提高10%[1]。自新冠爆发以来,OHCA事件增加了120%,各疫区的急救系统超负荷运转[2],进一步可能导致院前急救的延误。因此,精准地预测每日的急救出车量,合理配置院前急救资源,有利于提高医疗服务质量。时序预测作为一种常用的预测模型在很多领域已取得进展,如原油期货[3]、用电量负荷[4]、门诊量预测[5]等,但是在国内急救出车数量的预测研究还不多见,因此,本文利用广州市院前急救现有的每日出车量的数据,建立不同类型预测院前急救数量的时序预测模型,并评估不同预测模型的效能。

1 资料与方法 1.1 研究设计

本研究是一项回顾性研究,数据是广州市急救医疗指挥中心2021年1月1日至2021年12月31日的急救调度出车记录,共获取190 659条数据,筛除重复呼叫和去掉未出车记录,余175 642条数据用于分析。

1.2 研究变量的预处理

对数据进行时间变量定义,设置年份、月份、日期和时间的格式,以每天的出车数量作为研究变量,将此序列作为研究对象。

本文的研究仿真分析基于Matlab软件。ARIMA模型将全部数据按时间顺序分为训练集和测试集两部分,使用1~8月数据做训练集数据建模预测,使用9~12月数据做测试集验证模型准确度。AR模型分别使用过去7或4 d的数据预测当天的出车数量。

1.3 ARIMA模型

ARIMA是差分自回归滑动平均混合模型的简称。ARIMA方法预测问题分为三步骤:①模型辨识;②模型参数估计和检验;③模型应用。自回归(AR)模型与滑动平均(MA)模型的有效组合便构成了自回归滑动平均模型,即

(1)

ARIMA模型的前提条件是,预测时间序列是零均值平稳随机序列,且平稳随机序列的统计特性不随时间的推移而变化。对于非平稳的随机序列,在应用ARIMA模型前,需要进行零均值化和差分运算,以得到一个零均值平稳随机序列。

零均值化处理的数学运算公式为

(2)

即每一项的数值减去该序列的均值。

差分化处理是指对零均值的非平稳时间序列进行差分,使之成为平稳时间序列。一阶差分序列的运算公式为

(3)

二阶差分表达式为

(4)

同理,三阶差分记为

(5)

以此类推。

综合以上分析,ARIMA模型一般用ARIMA(p, d, q)表示,其中,p表示AR模型的阶数,q表示MA模型的阶数,d表示差分序列的差分阶数。本文中分析讨论的广州市2021年1月1日至2021年12月31日的日急救调度出车时间序列应采用的模型是ARIMA(1, 1, 1)。

1.4 AR模型

AR模型是自回归模型的简称。其数学表达式为

(6)

式中,p为AR模型的阶数,Yt是时间序列在t时刻的观测值。et表示模型误差。

本文中,采用均匀系数的AR模型,即

(7)
1.5 误差分析

衡量预测模型的好坏用模型预测精度这一指标衡量。模型预测精度可以用平均绝对百分比误差(MAPE)来表示,其表示式如下

(8)

其中,Et分别为真实值和估计值,N为估计值的点数。

2 结果 2.1 广州市六区每日出车量特征分析

图 1为2021年1月1日至2021年7月31日期间一周内每小时出车时间序列的出车数量的平均变化曲线,可见每天的出车量在10时左右出现峰值,5-6时左右出现谷值;出车数量随着周内日期的变化出现周期性变化。图 2显示每天的出车数量的时间序列曲线。可以看出,原始的数据是一组非平稳数据序列,但进行差分平稳处理后,差分序列达到平稳序列的标准。

图 1 1周内每个小时平均出车数量 Fig 1 Average number of hourly departure records in one week

图 2 1周内每个小时平均出车数量 Fig 2 Original time series of daily departure records in 2021
2.2 预测模型辨识和参数的估算和验证

对于ARIMA模型第一步模型辨识,本研究采用自相关(ACF)和偏自相关(PACF)分析法确定模型的阶数。通过分析研究,适合广州市2021年1月1日至2021年12月31日期间日出车数量预测的模型是ARIMA(1, 1, 1)。AR模型阶数的选择则与原始时间序列的相关性系数有关。分析原始出车时间序列的自相关系数变化,短期内出车数量具有相关性,20 d后的出车数量相关性变小。因此,在选用AR模型预测出车数量的时候,选用短期内具有相关性的数据预测当天的出车数量,本研究选用了AR(4)和AR(7)这两种预测模型。

2.3 预测结果及误差分析

图 3表示采用ARIMA(1, 1, 1)模型,对未来出车数量的拟合曲线。采用1~8月(243 d)的出车数据作为训练集,估计模型的参数,采用9~12月的数据作为测试集,验证模型的准确性。对于ARIMA中ARMA模型的参数估计采用了Matlab中prony方法,这种方法估算的ARMA模型的分子分母参数分别为[-129, -65.0319],[1, 0.3491]。从图 3可以看出采用ARIMA(1, 1, 1)模型预测的结果短期(30 d内)位于95%置信区间内,随着预测时长的增加,结果误差增加,这是由于ARIMA模型有累计误差。根据式(8)计算ARIMA(1, 1, 1)_prony方法预测9~12月出车量的MAPE为10.56%。

图 3 采用ARIMA(1, 1, 1) 模型对日出车时间序列预测曲线(测试集9~12月) Fig 3 Prediction curve of ARIMA(1, 1, 1) model for the time series of daily departure records (test set data from September 1 to December 31)

最后,ARIMA(1, 1, 1)_prony模型的残差基本服从正态分布,因此模型显著有效。

为了分析ARIMA算法预测误差,进行了更加深入的仿真实验。采用1~8月(243 d)的出车数据作为训练集,采用9~12月的数据作为测试集。分析不同的预测时长条件下,结果的MAPE变化。图 4以5 d为步长,分别预测15~105 d内的值,可以看出MAPE随着预测时长的增加而增加。图 4显示,预测拟合时长小于60 d的情况下,其MAPE小于6%。

图 4 采用ARIMA(1, 1, 1) 模型对日出车时间序列预测误差(测试集9~12月) Fig 4 Prediction curve of ARIMA(1, 1, 1) model for the time series of daily departure records (test set data from September 1 to December 31)

这和图 3相对应,随着预测拟合时间的延长,预测拟合曲线偏离测试集曲线,精度下降,从图 3上可以看出,当预测拟合时间超过大约20~23 d左右,累计误差使预测误差加大。

图 5表示采用AR模型预测出车数量的预测曲线。本研究采用AR(7)和AR(4)模型预测出车数据,即用过去7或4 d的数据预测当天的出车数量。从图 5可以看出采用AR模型预测的结果基本都位于95%置信区间内,并且与实际的出车数据接近。根据式(8)计算AR(7)和AR(4)两种方法的MAPE,分别为5.67%和5.66%。经验证这两个模型的残差服从正态分布,因此模型显著有效。

图 5 AR模型对日出车时间序列预测曲线 Fig 5 Prediction curve of AR model for the time series of daily departure records
3 讨论

本文采用两类不同的时序预测模型——ARIMA和AR模型对广州市2021年1月1日至2021年12月31日期间的急救调度日出车数量进行分析预测。图 1中原始时间序列的周期性变化表示该序列可使用时间序列模型预测,尽管现有时间序列的长度有限,但统计特征明显。有研究使用5个月的数据,采用多种时序预测算法预测医院心血管患者到访量的变化[6]。研究中模型的参数依赖前几周的数据,通过学习改变模型参数[7]。本文通过对模型的辨识和优化,得到ARIMA(1, 1, 1)、AR(7)和AR(4)三个预测模型。ARIMA模型是将数据按时间顺序分为训练集和测试集,训练集对ARIMA模型进行辨识及参数估计,预测拟合未来几个月的日出车数量。AR模型用前7和4 d的数据预测当天的数据,而没有延迟预测,因此,AR模型可用于短期预测。两类模型对日出车数量预测的MAPE较小,但ARIMA随着预测时间的延长,预测拟合精度下降,而预测时长不超过60 d,两种方法的MAPE均小于6%,因此,临床可以根据不同的需求应用适合的时序模型预测院前急救需求量,以便人力资源和救助物资的调配。

院前急救的需求量受许多影响因素影响,如气温[8]、环境质量[9]、人口特征因素[8]、日期因素[10]等,而准确预测院前急救的需求是院前急救管理的重要内容之一,准确的预测结果有利用合理安排急救资源、配置医护人员。差分自动回归滑动平均模型(ARIMA)是比较经典的时序预测模型。有研究[11]比较了SARIMA和ARIMA模型对糖尿病酮症的院前急救需求量预测效果,发现SARIMA模型的MAPE为7.3%,ARIMA模型的MAPE为7.2%。有研究[12]采用ARIMA(0, 0, 1)模型预测台湾地区急诊就诊月需求量,其MAPE为8.91%。有研究[13]采用研究了ARIMA和ARIMA-SVR模型对医院急诊门诊量预测,ARIMA预测的MAPE为7.21%。本文的研究尽管没有添加气候、环境质量等因素,两个月内的日出车量预测拟合曲线MAPE仍在6%以内,因此时序预测模型是一种简单有效的预测模型。

时间序列模型通常对结果的预测基于以下3个组成部分:(1)长期趋势;(2)短暂且经常是周期性的变化;(3)意外、随机事件的影响[14]。越来越多的研究将时序预测模型加入更多的参数以期获得更高精度的预测结果。Prophet模型[15]是将学习急救调度的年变化以及周变化规律作为先验信息,并考虑节假日等特殊日期影响的一种贝叶斯时序预测方法,该方法模型参数的获得通过机器学习方法。随着对时序预测精度要求的提高,模型复杂度提高,马尔科夫链[16]、自适应滤波[17]、泊松神经网络[18]等混合时序预测模型的研究越来越多。

本文研究可见,ARIMA模型和AR模型可以对急救调度日出车量做短期有效预测。本文的研究没有考虑气候和环境质量等因素,尽管预测准确性较好,但增加这些因素可能会进一步增加预测的准确性。

利益冲突  所有作者声明无利益冲突

作者贡献声明  王静:实验操作,论文撰写;江慧琳:论文撰写;刘佳,朱永城:数据收集及整理;李艳玲:论文润色;李双明,曾睿,林建权:数据采集;陈晓辉:研究设计和论文修改

参考文献
[1] 张文武, 徐军, 梁锦峰, 等. 加快社会急救体系建设, 打造"5 min社会救援圈"[J]. 中华急诊医学杂志, 2020, 29(2): 156-158. DOI:10.3760/cma.j.issn.1671-0282.2020.02.0040
[2] 中华医学会急诊医学分会, 中国医师协会急诊医师分会, 解放军急救医学专业委员会, 等. 新型冠状病毒肺炎疫情常态化防控形势下急危重症患者急诊预检分诊与救治专家共识[J]. 中华急诊医学杂志, 2022, 31(3): 297-302. DOI:10.3760/cma.j.issn.1671-0282.2022.03.006
[3] 王润鑫, 张静, 李涛. 时间序列在原油期货中的应用[J]. 福建电脑, 2021, 37(6): 17-20. DOI:10.16707/j.cnki.fjpc.2021.06.005
[4] 王洪亮, 陈新源, 赵雨梦. 基于集合经验模态分解和ARIMA-GRNN的负荷预测方法[J]. 电子科技, 2021, 34(12): 42-48. DOI:10.16180/j.cnki.issn1007-7820.2021.12.008
[5] 陶源, 高旸昉, 刘玲. 自回归滑动平均求和季节乘积模型在某医院门诊量预测中的应用[J]. 中国医院统计, 2017, 24(5): 391-393. DOI:10.3969/j.issn.1006-5253.2017.05.025
[6] Hu ZX, Qiu H, Su ZQ, et al. A stacking ensemble model to predict daily number of hospital admissions for cardiovascular diseases[J]. IEEE Access, 8(138719): 138729. DOI:10.1109/ACCESS.2020.3012143
[7] Duarte D, Walshaw C, Ramesh N. A Comparison of Time-Series Predictions for Healthcare Emergency Department Indicators and the Impact of COVID-19, Appl. Sci. 2021, 11, 3561. DOI: 10.3390/app11083561
[8] Wong HT, Lin JJ. The effects of weather on daily emergency ambulance service demand in Taipei: a comparison with Hong Kong[J]. Theor Appl Climatol, 2020, 141(1): 321-330. DOI:10.1007/s00704-020-03213-4
[9] Chen TT, Zhan ZY, Yu YM, et al. Effects of hourly levels of ambient air pollution on ambulance emergency call-outs in Shenzhen, China[J]. Environ Sci Pollut Res Int, 2020, 27(20): 24880-24888. DOI:10.1007/s11356-020-08416-w
[10] Liu RC, Zeng J, Jiang XY, et al. The relationship between airborne fine particle matter and emergency ambulance dispatches in a southwestern city in Chengdu, China[J]. Environ Pollut, 2017, 229: 661-667. DOI:10.1016/j.envpol.2017.06.098
[11] Villani M, Earnest A, Nanayakkara N, et al. Time series modelling to forecast prehospital EMS demand for diabetic emergencies[J]. BMC Health Serv Res, 2017, 17(1): 332. DOI:10.1186/s12913-017-2280-6
[12] Juang WC, Huang SJ, Huang FD, et al. Application of time series analysis in modelling and forecasting emergency department visits in a medical centre in Southern Taiwan[J]. BMJ Open, 2017, 7(11): e018628. DOI:10.1136/bmjopen-2017-018628
[13] Zhang YM, Luo L, Yang JC, et al. A hybrid ARIMA-SVR approach for forecasting emergency patient flow[J]. J Ambient Intell Human Comput, 2019, 10(8): 3315-3323. DOI:10.1007/s12652-018-1059-x
[14] Wargon M, Guidet B, Hoang TD, et al. A systematic review of models for forecasting the number of emergency department visits[J]. Emerg Med J, 2013, 26(6): 395-399. DOI:10.1136/emj.2008.062380
[15] Thomas H. McCoy Jr, Amelia M. Pellegrini, Roy H. Perlis. Assessment of Time-Series Machine Learning Methods for Forecasting Hospital Discharge Volume, JAMA Network Open[J], . 2018, 1(7): e184087. DOI: 10.1001/jamanetworkopen.2018.4087.
[16] Nicoletta V, Guglielmi A, Ruiz A, et al. Bayesian spatio-temporal modelling and prediction of areal demands for ambulance services[J]. IMA J Manag Math, 2021, 33(1): 101-121. DOI:10.1093/imaman/dpaa028
[17] Huang YH, Xu C, Ji MZ, et al. Medical service demand forecasting using a hybrid model based on ARIMA and self-adaptive filtering method[J]. BMC Med Inform Decis Mak, 2020, 20(1): 237. DOI:10.1186/s12911-020-01256-1
[18] Huang HY, Jiang MY, Ding ZH, et al. Forecasting emergency calls with a Poisson neural network-based assemble model[J]. IEEE Access, 2019, 7: 18061-18069. DOI:10.1109/ACCESS.2019.2896887