中华急诊医学杂志  2023, Vol. 32 Issue (11): 1481-1485   DOI: 10.3760/cma.j.issn.1671-0282.2023.11.009
基于多模型融合的院前急救需求预测模型
韩朋飞1 , 郭一2 , 龚慧飞3 , 吴善会4     
1. 浙江科技学院,杭州 310023;
2. 浙江省卫生健康信息中心,杭州 310006;
3. 衢州市急救中心,衢州 324000;
4. 杭州市急救中心余杭分中心,杭州 311199
摘要: 目的 为实现院前急救资源的优化调度,解决救护车需求量的评估难题,构建了一种基于多模型融合的院前急救需求量预测模型。方法 采用回顾性研究设计,提取历史院前急救调度记录及其对应时间段的天气数据,利用5折交叉验证法训练三类初级学习器,并将初级学习器的训练结果进行Stacking融合,将融合结果作为新特征输入次级学习器,使用次级学习器输出救护车需求量的最终预测结果。结果 实验结果显示,多模型融合预测模型在平均绝对误差和均方根误差两个评价指标上优于单一模型,该模型能够更精确地预测救护车需求量。结论 基于多模型融合的院前急救需求量预测模型通过有效利用历史急救数据和天气数据,能够提高救护车需求量预测的精度和泛化能力,为院前急救资源的优化调度提供有力支持。
关键词: 院前急救    需求量预测    多模型融合    机器学习    
The pre-hospital emergency demand prediction model based on multi-model fusion
Han Pengfei1 , Guo Yi2 , Gong Huifei3 , Wu Shanhui4     
1. Zhejiang University of Science and Technology, Hangzhou, 310023, China;
2. Zhejiang Health Information Center, Hangzhou, 310006, China;
3. Quzhou Emergency Medical Center, Quzhou, 324000, China;
4. Yuhang Branch of Hangzhou Emergency Medical Center, Hangzhou, 311199, China
Abstract: Objective To optimize the dispatch of pre-hospital emergency resources and address the assessment challenge of ambulance demand, a pre-hospital emergency demand prediction model based on multi-model fusion was constructed. Methods The retrospective study design method was adopted, and historical pre-hospital emergency dispatch records and corresponding weather data were extracted. Three types of primary learners were trained by 5-fold cross-validation, and the training results of the primary learners were fused by Stacking. The fusion results were input into the secondary learner as new features, and the final prediction results of ambulance demand were obtained by the secondary learner. Results By comparison experiments, results showed that the multi-model fusion prediction model based on Stacking was superior to the single model in both mean absolute error and root mean square error, indicating that the model could predict ambulance demand more accurately. Conclusion The pre-hospital emergency demand prediction model based on multi-model fusion could improve the accuracy and generalization ability of ambulance demand prediction by using historical emergency data and weather data, and provide strong support for the optimization of pre-hospital emergency resources.
Key words: Pre-hospital emergency    Demand prediction    Multi-model fusion    Machine learning    

近年来,随着人口老龄化的加剧、各种急危重症发病率的持续上升以及各种自然灾害、事故灾害、公共卫生事件的频发,公共卫生医疗服务面临着前所未有的挑战与压力,院前急救服务的需求也呈现出急剧增长的趋势[1]。然而,我国院前急救资源和服务能力尚存在突出的供给不足和分布不均的问题,亟需加以解决。在这一背景下,对救护车的调度需求进行及时准确预测,对于合理规划和配置有限的急救资源具有重要意义。通过预测救护车需求,不仅可以优化救护车的调度和布局,提高救护车的利用率和响应速度,提升病患抢救成功率,还可以降低救护车的空驶率和拥堵率,从而提升整体院前急救服务水平与质量。

目前,需求量预测模型在电网负荷预测[2]、供应链决策[3]、交通流量预测[4]、医疗急诊预测[5-6]等方面已有较多的研究成果,这些研究主要采用传统统计学方法、机器学习方法和深度学习方法对特定领域的预测问题进行了探索和分析,但模型大多为单一模型,未能充分吸收各模型的优点。而针对院前急救领域,更多的文献是在探讨需求量的影响因素,尤其是院前急救需求量与日期分布、天气等因素的关联性[7-10],对需求量预测分析较少。

浙江省院前急救信息平台(“浙里急救”平台)是浙江省卫生健康领域数字化改革重大成果之一,汇集了浙江全省院前急救数据,统筹配置救护车辆、机构等资源。本文对浙江省院前急救信息平台的历史院前急救接警调度数据进行分析,结合天气、温度、风力等环境因素,建立基于多模型融合的院前急救需求预测模型,并与单一模型进行对比分析,评估不同预测模型的效能,为院前急救需求量的有效预警提供了参考依据。

1 资料与方法 1.1 研究对象

采用回顾性设计,以浙江省院前急救信息平台的院前急救接警调度记录为数据来源。杭州市余杭区和衢州市是浙江省平台首批试点地区,具有较高的数据准确性和完整性,试点开展从2022年5月开始,距今已有一年多时间,因此提取杭州市余杭区和衢州市2022年6月至2023年5月的完整数据,共获取记录69 703条。由于2022年12月和2023年1月处于疫情防控转段的特殊时期,救护车需求量不具备代表性,所以不纳入分析范围。同时排除重复呼叫和异常记录后,获取有效记录为43 590条,其中杭州市余杭区24 857条、衢州市18 733条,分别命名为YHQ01数据集和QZS01数据集。接警调度记录均与相应时间段内的天气数据关联。

1.2 数据准备 1.2.1 数据采集

从浙江省院前急救信息平台获取每日院前急救接警次数和接警时间。从国家气象局获取日最低温度(℃)、日最高温度(℃)、天气状况、风力等级、空气质量指数等变量。

1.2.2 数据清洗

对院前急救数据进行清洗,院前急救数据涉及的变量有日期、每日急救需求量、区域编码等,主要步骤包括:(1)去重,根据报警电话和报警时间的唯一性,识别并剔除数据集中的重复记录;(2)缺失值处理,检测数据集合中的缺失值,并采用合适的方法进行处理,如将派车时间为空的数据删除;(3)异常值处理,检测并处理数据集中的异常值,如将摘机时间小于振铃时间的数据删除;(4)格式转换,将数据转换为统一且合适的格式,以便于后续分析和建模,如将日期时间数据转换为标准格式、将文本数据转换为数值型数据等;(5)数据一致性处理,处理数据集中可能存在的不一致或错误的数据,如修正天气数据中拼写错误、统一单位或度量标准等;(6)变量筛选,删除数据集中不需要的变量或列,以减少数据集的维度和冗余。

1.2.3 标签编码

对于天气数据中天气状况采用标签编码的方式进行处理,将不同类别的数据,用一个唯一的数字来表示,即类别数据统一转化为整数。

1.2.4 标准化处理

将不同尺度或量纲的数据,用一个统一的标准来表示,即数据的均值为0,标准差为1。数据标准化处理目的是消除数据的偏差和差异性,便于比较不同特征的相对重要性,数据标准化处理可以加快运算速度并提高模型的稳定性和准确性。

1.3 统计学方法

构建多模型融合预测模型,自变量包括三个维度,即时间序列维度(月份、日期、星期、休息日)、天气维度(日最低温度、日最高温度、天气状况、风力等级、空气质量指数)和救护车需求量滞后维度(当前时间段的前一至前七个时间段的需求量)。因变量为每日院前急救接警次数。

2 结果 2.1 院前急救需求量分析

对2022年6月1日至2023年5月31日院前急救接警数据进行按月统计(不含2022年12月和2023年1月)。杭州市余杭区共产生接警记录24 857条,平均每个月的急救用车需求量在2 485次;7月份需求量为最高,累计2 935次;2月份需求量为最低,累计1 883次;一年日最高需求量为128次,日最低需求量为52次。衢州市共产生接警记录18 733条,平均每个月的急救用车需求量在1 873次;7月份需求量为最高,累计2 319次;2月份需求量为最低,累计1 511次;一年日最高需求量为94次,日最低需求量为33次。

2.2 天气特征分析

以杭州市余杭区2022年6月1日至2023年5月31日的气象相关数据为例,对天气特征进行相关性分析,绘制出相关系数矩阵,如图 1所示,反映出不同天气特征之间的线性关系。结果显示院前急救需求量与最高温度、最低温度、天气状况、空气质量指数有着弱相关关系,而与风力等级相关性极小。因此,在特征选择过程中,排除了风力等级这一特征量。

图 1 天气特征相关矩阵分析 Fig 1 Correlation analysis of meteorological factors
2.3 预测模型构建

由于院前急救需求量具有较强的随机性、不确定性以及地理区域相关性,单一的基学习器在预测准确性和及时性方面具有较大局限。因此,本文采用了Stacking多模型融合方法,可对不同基学习器进行优势互补以期达到更好的预测效果。该方法首先利用原始训练集训练出多个不同类型的初级学习器,然后将它们的预测结果作为新的特征输入到一个元学习器中,以得到最终的预测结果[11]。本文采用的学习器分别是极端梯度提升(eXtreme gradient boosting, XGBoost)、多层感知器(multilayer perceptron,MLP)、轻量梯度提升机(light gradient boosting machine, LightGBM)。Stacking多模型融合结构如图 2所示。首先结合5-折交叉验证法分别训练第一层XGBoost、LightGBM、MLP三个初级学习器,并将各初级学习器的预测结果与验证结果进行Stacking融合,然后将融合后的验证结果作为新的训练集,预测结果作为新的测试集,训练集用于训练第二层LightGBM次级学习器,测试集用于预测最终的急救需求量预测值。

图 2 Stacking多模型融合结构 Fig 2 Architecture of Stacking multi-model fusion
2.4 结果评价指标

选取均方根误差(root mean square error,RMSE)、平均绝对误差(mean absolute error,MAE)来评定模型的优劣程度。误差评价指标的公式如下:

公式(1)和(2)中n是预测样本数,yi表示急救需求量真实值,ŷi是对应的急救需求量预测值。

(1)
(2)
2.5 结果比较分析

限于篇幅,本文选取余杭区一个乡镇代表数据,将三个单一学习器模型以及基于Stacking多模型融合预测模型产生的每日院前急救需求量预测值分别与真实值进行对比,结果分别如图 3~6所示。

图 3 XGBoost模型急救需求量预测值与真实值对比 Fig 3 Comparison between predicted and actual emergency demand of XGBoost model

图 4 LightGBM模型急救需求量预测值与真实值对比 Fig 4 Comparison between predicted and actual emergency demand of LightGBM model

图 5 MLP模型急救需求量预测值与真实值对比 Fig 5 Comparison between predicted and actual emergency demand of MLP model

图 6 融合模型急救需求量预测值与真实值对比 Fig 6 Comparison between predicted and actual emergency demand of fusion model

基于杭州市余杭区和衢州市清洗后数据,各模型预测每日院前急救需求量的MAE和RMSE值结果如表 1所示。

表 1 不同模型结果比较 Table 1 Comparison of results among different models
模型名 数据集YHQ01 数据集QZS01
MAE RMSE MAE RMSE
XGBoost 0.7600 0.9938 0.7670 1.0869
LightGBM 0.8163 0.9780 0.7635 1.0344
MLP 0.9510 1.2381 0.8952 1.1972
三种模型Stacking融合 0.7484 0.9182 0.7203 1.0175

LightGBM是树模型,具有较高的预测准确度;XGBoost是一种基于梯度提升树模型,可以处理大规模的数据,具有良好的可扩展性;MLP模型准确度及精度不如另外2种模型,但它的预测速度较快。从表 1可以看出,与三个单一模型相比,基于XGBoost、LightGBM、MLP的融合模型充分结合了三个模型的特点,考虑了周期性对预测结果的影响,充分利用了数据信息,因此相比于其他单一模型都取得了更好的预测结果。

3 讨论

需求量预测是一种利用历史数据和影响因素来分析未来资源需求的变化趋势和规律的方法。需求量预测模型可以为决策者提供资源配置和管理的参考,从而提高资源的利用效率和满足率。高精度的救护车需求量预测模型对于优化救护车的调度和配置、提高院前急救服务质量和效率具有重要意义。利用模型实时预测出不同时间段和区域的救护车需求情况,能够为急救调度指挥中心等机构提供决策支持,帮助其合理地安排调度席位数,避免救护车供需失衡。此外,预测结果可以赋能调度员和救护车司机制定最优的出车策略和路线,以减少救护车的行驶时间和距离,提高救护车的利用率和服务质量。对区域中的急救医院而言,良好的预测模型能够帮助其在需求量高峰期安排充足的急救医护人员、急救药品、急救设备等资源,缩短急救患者入院与实施抢救间的时间间隔,最小化临床风险,避免因错过最佳抢救时间而导致的死亡。

传统的统计学方法,如时间序列分析、回归分析等,虽具有易用性和可解释性的优点,但存在忽略非线性关系、处理高维数据困难等缺点。机器学习方法,如支持向量机、随机森林、神经网络等,可以有效地挖掘数据中的非线性关系和复杂特征,但存在过拟合、参数选择、可解释性差等问题。深度学习方法,如卷积神经网络、循环神经网络、长短期记忆网络等,可以处理大规模高维数据,并且具有自适应学习能力和强大的泛化能力,但需要大量的计算资源和训练时间,并且其内部机制难以理解。在实际应用中,院前急救需求量受到多种相互作用和非线性关系的复杂因素影响,这使得院前急救需求量的变化具有不确定性和随机性。因此,单一的预测模型往往不能充分捕捉数据中的潜在特征和规则,从而降低预测的准确性和稳定性。

本文考虑了区域内多元气象因素(日最低气温、日最高气温、天气情况、空气质量指数)及滞后救护车请求量对当前救护车需求量的影响,构建了一种涵盖时间序列、气象条件和滞后请求量三个维度的救护车需求量预测模型,并使用Stacking多模型融合算法对模型进行训练和预测,从而提高预测的精度和鲁棒性。XGBoost、MLP及LightGBM这三个模型都可以独立用于院前急救救护车预测场景,但都各自存在一些不足。XGBoost的优点主要体现精度高、速度快、可扩展性高、防止过拟合,但对于对于方差大的训练集,XGBoost就不容易拟合好[12];MLP具有好的识别率且分类速度快,但其训练过程较耗时[13];LightGBM速度快、占用内存小,但可能会长出比较深的决策树,产生过拟合[14]。因此,本文提出的三种模型融合的救护车需求量预测方法,综合了LightGBM、XGBoost、MLP三种单一模型的优势,通过实验也证实了该方法能够有效地预测每日救护车的需求量,并且相比于单一模型具有更高的预测精度和稳定性。

本研究具有一定的局限性,首先,本研究样本量相对不足,模型的敏感度及特异度有待进一步提高,后期需要引入更多区域及时间跨度的急救需求量样本进行验证;其次,针对不同于本文的初级学习器和融合模型,需要开展进一步研究与探索。

综上所述,院前急救需求量预测对于合理高效地利用医疗资源和提高急危重症患者生存率有重要作用。院前急救医生和应急管理人员可以利用本文提出的基于多模型融合的院前急救需求预测模型,对区域内的急救需求量进行预测评估,从而优化医疗资源的分配,提高院前急救服务的效率。本文构建的融合预测模型综合了LightGBM、XGBoost、MLP三种单一模型的优势,采用Stacking方式进行模型融合,可以较好地预测每日救护车需求量,对院前急救调度与决策具有一定的指导意义。

利益冲突  所有作者声明无利益冲突

作者贡献声明  韩朋飞:实验操作、论文撰写;郭一:研究设计、论文修改;龚慧飞:数据收集及整理;吴善会:数据收集及整理

参考文献
[1] Pan C, Pang JJ, Cheng K, et al. Trends and challenges of emergency and acute care in Chinese mainland: 2005-2017[J]. World J Emerg Med, 2021, 12(1): 5-11. DOI:10.5847/wjem.j.1920-8642.2021.01.001
[2] Sheng WX, Liu KY, Jia DL, et al. Short-term load forecasting algorithm based on LST-TCN in power distribution network[J]. Energies, 2022, 15(15): 5584. DOI:10.3390/en15155584
[3] Kilimci ZH, Akyuz AO, Uysal M, et al. An improved demand forecasting model using deep learning approach and proposed decision integration strategy for supply chain[J]. Complexity, 2019, 2019: 1-15. DOI:10.1155/2019/9067367
[4] Han X, Gong SC. LST-GCN: Long short-term memory embedded graph convolution network for traffic flow forecasting[J]. Electronics, 2022, 11(14): 2230. DOI:10.3390/electronics11142230
[5] 潘凌凌, 胡哲畅, 李强, 等. 基于机器学习算法的急诊创伤患者用血预测模型的构建[J]. 中华急诊医学杂志, 2023, 32(5): 606-611. DOI:10.3760/cma.j.issn.1671-0282.2023.05.007
[6] 李雪, 吴嘉荔, 马汉宁, 等. 不同评分对急诊重症肺炎合并ARDS患者预后预测模型的建立与评价[J]. 中华急诊医学杂志, 2023, 32(8): 1039-1045. DOI:10.3760/cma.j.issn.1671-0282.2023.08.006
[7] Lin XA, Ho WFA, Cheong HK, et al. Leveraging machine learning techniques and engineering of multi-nature features for national daily regional ambulance demand prediction[J]. Int J Environ Res Public Health, 2020, 17(11): 4179. DOI:10.3390/ijerph17114179
[8] Sangkharat K, Mahmood A M, Thornes E J, et al. Impact of extreme temperatures on ambulance dispatches in London, UK[J]. Environ Res, 2020, 182: 109110. DOI:10.1016/j.envres.2019.109100
[9] Wong HT, Lin JJ. The effects of weather on daily emergency ambulance service demand in Taipei: a comparison with Hong Kong[J]. Theor Appl Climatol, 2020, 141: 321-330. DOI:10.1007/s00704-020-03213-4
[10] Wong HT, Lai PC. Weather factors in the short-term forecasting of daily ambulance calls[J]. Int J Biometeorol, 2014, 58: 669-678. DOI:10.1007/s00484-013-0647-x
[11] 史佳琪, 张建华. 基于多模型融合Stacking集成学习方式的负荷预测方法[J]. 中国电机工程学报, 2019, 39(14): 4032-4041. DOI:10.13334/j.0258-8013.pcsee.181510
[12] Yueling F, Zhen G, Heng X, et al. Predicting the tropical sea surface temperature diurnal cycle amplitude using an improved XGBoost algorithm[J]. J Mar Sci Eng, 2022, 10(11): 1686. DOI:10.3390/JMSE10111686
[13] 陈湘州, 陶李红. 基于MLP神经网络的中小企业供应链金融信用风险评估[J]. 湖南科技大学学报(自然科学版), 2021, 36(4): 91-99. DOI:10.13582/j.cnki.1672-9102.2021.04.013
[14] 叶志宇, 冯爱民, 高航. 基于深度LightGBM集成学习模型的谷歌商店顾客购买力预测[J]. 计算机应用, 2019, 39(12): 3434-3439. DOI:10.11772/j.issn.1001-9081.2019071305