Page 111 - 南京医科大学学报自然科学版
P. 111
第42卷第2期 赵子平,许 可,吴 莹,等. 基于深度学习的猩红热流行趋势预测模型研究[J].
2022年2月 南京医科大学学报(自然科学版),2022,42(02):252-257,263 ·257 ·
的多重共线性影响,对模型预测效果起到了很好的
3 讨 论
优化作用。相较于SARIMA模型,LSTM神经网络模
猩红热是江苏省常见的呼吸道类传染病,近年 型的拟合效果及可扩展性均优于 SARIMA 模型,主
来发病水平不断上升,且在全国范围内均有类似的 要体现在 LSTM 神经网络模型对数据条件要求较
流行趋势 [12] ,猩红热防控仍面临重大挑战。建立准 低,能够结合多种影响因素数据,有效拟合历史发
确的预测模型对于猩红热疫情防控以及医疗资源 病数据,并且能够根据即时输入数据的波动,准确
配置具有重要的指导意义。目前猩红热流行趋势 地预测 2018 年和 2019 年发病序列中的异常高发
预测的模型主要是ARIMA 模型 [13] 。ARIMA 模型是 值,这也要求LSTM模型在实际应用中,需要不断获
针对一系列随时间变化,而又互相关联的动态数据 取最新的数据资料,加入到已经建立的模型中,进
建立的预测模型。为了能够发现数据之间的关联 行不断地学习修正,才能保证模型在各种复杂因素
关系,ARIMA模型对数据的数量和数据的自相关性 的影响下保持着较高的预测精度。
要求较高。SARIMA 模型能够在 ARIMA 模型的基 本研究结果提示LSTM神经网络模型在江苏省
础上,针对发病具有季节性特点的疾病,提取季节滞 猩红热发病时间序列预测中表现良好,可以用于流
后的自相关信息。但是,猩红热的发病受到多种因 行趋势研判和风险评估,为优化和调整猩红热监
素,如平均温度、相对湿度等气象因素的影响 ,这会 测、防控策略和措施提供依据。
[14]
造成单因素模型预测效果的不理想,同时,在较长
[参考文献]
的时间跨度上,气象因素的变化将会对模型带来更
[1] WALKER M J,BROUWER S,FORDE B M,et al. Detec⁃
大的影响,导致模型的长期预测效能下降。
tion of epidemic scarlet fever group a streptococcus in
神经网络模型以其优秀的非线性拟合能力、能
Australia[J]. Clin Infect Dis,2019,69(7):1232-1234
够纳入多种预测因素等优势,在不同领域的时间序
[2] DRUG AND THERAPEUTICS BULLETIN. Managing
列预测中表现出明显的优越性。随着计算机软硬 scarlet fever[J]. BMJ,2018,362:k3005
件技术的发展,深度学习技术也得到了飞速发展, [3] LIU Y,CHAN T C,YAP L W,et al. Resurgence of scarlet
RNN作为深度学习的网络模型之一,能够很好地处 fever in China:a 13⁃year population⁃based surveillance
理序列数据,但是在较长时间序列的预测上,容易 study[J]. Lancet Infect Dis,2018,18(8):903-912
造成长期相关信息的遗漏。在 RNN 的基础上, [4] HSIEH Y C,HUANG Y C. Scarlet fever outbreak in Hong
LSTM 神经网络模型引入门控系统,选择性地保留 Kong,2011[J]. J Microbiol Immunol Infect,2011,44
或者剔除在长时间步上的相关信息,能够捕获长期 (6):409-411
[5] ZHAO J,DENG F,CAI Y,et al. Long short⁃term memory
依赖关系,在时间序列的预测上表现出显著性能,
⁃ fully connected(LSTM⁃FC)neural network for PM(2.5)
因此在许多实际应用,如天气预报以及新冠肺炎的
concentration prediction[J]. Chemosphere,2019,220:
预测中发挥着重要作用 [15-16] 。
486-492
本研究使用 SARIMA 模型以及 LSTM 神经网络
[6] PATHAN R K,BISWAS M,KHANDAKER M U. Time
模型对 2005—2019 年江苏省猩红热月发病数进行 series prediction of COVID⁃19 by mutation rate analysis
拟合预测。SARIMA 模型表现较差,前瞻性预测误 using recurrent neural network ⁃ based LSTM model[J].
差超过了 35%。LSTM 模型前瞻性预测精度接近 Chaos Solitons Fractals,2020,138:110018
80%,预测效果明显优于SARIMA模型,预测结果能 [7] LIAO Z,ZHANG X,ZHANG Y,et al. Seasonality and
够很好的反映猩红热实际发病水平的变化趋势。 trend forecasting of tuberculosis incidence in Chongqing,
建立多因素预测模型时,如何选择合适的预测指标 China[J]. Interdiscip Sci,2019,11(1):77-85
是模型构建的难点之一。相关性分析结果表明各 [8] TIAN C W,WANG H,LUO X M. Time⁃series modelling
and forecasting of hand,foot and mouth disease cases in
气象指标与猩红热流行之间均存在显著相关性,可
China from 2008 to 2018[J]. Epidemiol Infect,2019,
以作为构建 LSTM 的预测指标。但是,气象因素之
147:e82
间存在高度相关性,如果全部纳入预测模型中,将
[9] MOLINA L L,ANGÓN,GARCÍA E A,et al. Time series
降低模型的性能,影响模型预测效果。本研究通过
analysis of bovine venereal diseases in La Pampa,Argen⁃
因子分析的方法提取气象因素的公因子,以公因子 tina[J]. PLoS One,2018,13(8):e0201739
作为预测指标建立 LSTM 模型,去除气象因素之间 (下转第263页)