Page 111 - 南京医科大学学报自然科学版
P. 111

第42卷第2期             赵子平,许 可,吴 莹,等. 基于深度学习的猩红热流行趋势预测模型研究[J].
                  2022年2月                   南京医科大学学报(自然科学版),2022,42(02):252-257,263                     ·257 ·


                                                                  的多重共线性影响,对模型预测效果起到了很好的
                3  讨 论
                                                                  优化作用。相较于SARIMA模型,LSTM神经网络模
                    猩红热是江苏省常见的呼吸道类传染病,近年                          型的拟合效果及可扩展性均优于 SARIMA 模型,主
                来发病水平不断上升,且在全国范围内均有类似的                            要体现在 LSTM 神经网络模型对数据条件要求较
                流行趋势    [12] ,猩红热防控仍面临重大挑战。建立准                    低,能够结合多种影响因素数据,有效拟合历史发
                确的预测模型对于猩红热疫情防控以及医疗资源                             病数据,并且能够根据即时输入数据的波动,准确
                配置具有重要的指导意义。目前猩红热流行趋势                             地预测 2018 年和 2019 年发病序列中的异常高发
                预测的模型主要是ARIMA 模型            [13] 。ARIMA 模型是       值,这也要求LSTM模型在实际应用中,需要不断获
                针对一系列随时间变化,而又互相关联的动态数据                            取最新的数据资料,加入到已经建立的模型中,进
                建立的预测模型。为了能够发现数据之间的关联                             行不断地学习修正,才能保证模型在各种复杂因素
                关系,ARIMA模型对数据的数量和数据的自相关性                          的影响下保持着较高的预测精度。
                要求较高。SARIMA 模型能够在 ARIMA 模型的基                          本研究结果提示LSTM神经网络模型在江苏省
                础上,针对发病具有季节性特点的疾病,提取季节滞                           猩红热发病时间序列预测中表现良好,可以用于流
                后的自相关信息。但是,猩红热的发病受到多种因                            行趋势研判和风险评估,为优化和调整猩红热监
                素,如平均温度、相对湿度等气象因素的影响 ,这会                          测、防控策略和措施提供依据。
                                                      [14]
                造成单因素模型预测效果的不理想,同时,在较长
                                                                 [参考文献]
                的时间跨度上,气象因素的变化将会对模型带来更
                                                                 [1] WALKER M J,BROUWER S,FORDE B M,et al. Detec⁃
                大的影响,导致模型的长期预测效能下降。
                                                                       tion of epidemic scarlet fever group a streptococcus in
                    神经网络模型以其优秀的非线性拟合能力、能
                                                                       Australia[J]. Clin Infect Dis,2019,69(7):1232-1234
                够纳入多种预测因素等优势,在不同领域的时间序
                                                                 [2] DRUG AND THERAPEUTICS BULLETIN. Managing
                列预测中表现出明显的优越性。随着计算机软硬                                  scarlet fever[J]. BMJ,2018,362:k3005
                件技术的发展,深度学习技术也得到了飞速发展,                           [3] LIU Y,CHAN T C,YAP L W,et al. Resurgence of scarlet
                RNN作为深度学习的网络模型之一,能够很好地处                                fever in China:a 13⁃year population⁃based surveillance
                理序列数据,但是在较长时间序列的预测上,容易                                 study[J]. Lancet Infect Dis,2018,18(8):903-912
                造成长期相关信息的遗漏。在 RNN 的基础上,                          [4] HSIEH Y C,HUANG Y C. Scarlet fever outbreak in Hong
                LSTM 神经网络模型引入门控系统,选择性地保留                               Kong,2011[J]. J Microbiol Immunol Infect,2011,44
                或者剔除在长时间步上的相关信息,能够捕获长期                                (6):409-411
                                                                 [5] ZHAO J,DENG F,CAI Y,et al. Long short⁃term memory
                依赖关系,在时间序列的预测上表现出显著性能,
                                                                       ⁃ fully connected(LSTM⁃FC)neural network for PM(2.5)
                因此在许多实际应用,如天气预报以及新冠肺炎的
                                                                       concentration prediction[J]. Chemosphere,2019,220:
                预测中发挥着重要作用          [15-16] 。
                                                                       486-492
                    本研究使用 SARIMA 模型以及 LSTM 神经网络
                                                                 [6] PATHAN R K,BISWAS M,KHANDAKER M U. Time
                模型对 2005—2019 年江苏省猩红热月发病数进行                            series prediction of COVID⁃19 by mutation rate analysis
                拟合预测。SARIMA 模型表现较差,前瞻性预测误                              using recurrent neural network ⁃ based LSTM model[J].
                差超过了 35%。LSTM 模型前瞻性预测精度接近                              Chaos Solitons Fractals,2020,138:110018
                80%,预测效果明显优于SARIMA模型,预测结果能                       [7] LIAO Z,ZHANG X,ZHANG Y,et al. Seasonality and
                够很好的反映猩红热实际发病水平的变化趋势。                                  trend forecasting of tuberculosis incidence in Chongqing,
                建立多因素预测模型时,如何选择合适的预测指标                                 China[J]. Interdiscip Sci,2019,11(1):77-85
                是模型构建的难点之一。相关性分析结果表明各                            [8] TIAN C W,WANG H,LUO X M. Time⁃series modelling
                                                                       and forecasting of hand,foot and mouth disease cases in
                气象指标与猩红热流行之间均存在显著相关性,可
                                                                       China from 2008 to 2018[J]. Epidemiol Infect,2019,
                以作为构建 LSTM 的预测指标。但是,气象因素之
                                                                       147:e82
                间存在高度相关性,如果全部纳入预测模型中,将
                                                                 [9] MOLINA L L,ANGÓN,GARCÍA E A,et al. Time series
                降低模型的性能,影响模型预测效果。本研究通过
                                                                       analysis of bovine venereal diseases in La Pampa,Argen⁃
                因子分析的方法提取气象因素的公因子,以公因子                                 tina[J]. PLoS One,2018,13(8):e0201739
                作为预测指标建立 LSTM 模型,去除气象因素之间                                                        (下转第263页)
   106   107   108   109   110   111   112   113   114   115   116