Page 107 - 南京医科大学学报自然科学版
P. 107

第42卷第2期             赵子平,许 可,吴 莹,等. 基于深度学习的猩红热流行趋势预测模型研究[J].
                  2022年2月                   南京医科大学学报(自然科学版),2022,42(02):252-257,263                     ·253 ·


                    猩红热是儿童常见流行的呼吸道类传染病,由                          许多传染病时间序列都包含明显的周期性和季节
                产毒素的化脓性链球菌(也称为 A 组链球菌,或                           性趋势   [7-8] ,猩红热的发病趋势也显示出明显的季节
                GAS)感染引起 ,主要临床表现有发热、咽峡炎、弥                         性,在模型中加入明确的季节性趋势会使模型的表
                             [1]
                漫性皮疹,典型的皮疹为红色、针尖状、砂纸质地,                           现更为良好,因此将ARIMA模型扩展为带季节组分
                                         [2]
                从躯干蔓延并固定在弯曲处 。猩红热在全球均有                            的 SARIMA 模型。SARIMA 模型可以表示为 SARI⁃
                流行,给人群健康和生命安全造成极大威胁。英国                            MA(p,d,q)(P,D,Q)s,其中p、d、q分别是自回归阶
                1994—2000年,猩红热发病率从250/10万下降到小                     数、差分阶数和移动平均阶数;P、D和Q分别是季节
                于5/10万,但2014年发病水平激增,报告了1 500余                     自回归阶数、季节差分阶数和季节性移动平均的阶
                                                                                        [9]
                                                   [2]
                例猩红热病例,为45年来最高发病水平 。中国在                           数;S 是季节周期的长度 ,本研究中定义为 12 个
                                       [3]
                2011年发病率也迅速上升 ,同年,香港地区有2例                         月。模型拟合过程如下:
                儿童因此而死亡 。目前尚无疫苗能够有效预防猩                                首先通过单位根平稳性检验(augmented dickey
                              [4]
                红热感染,猩红热的流行仍然是全球面临的重要公                            fuller,ADF),判断猩红热发病序列数据是否平稳。
                共卫生问题。                                            如果不平稳,则采用差分的方法将时间序列转化为
                    传染病预测有助于及时研判传染病流行趋势,                          平稳序列。然后基于平稳时间序列的自相关函数
                准确预测是制定传染病防控策略的重要依据,对于                           (AUTOCORRECTION FUNCtion,ACF)图和偏自相
                传染病控制意义重大。近年来,深度学习逐渐被应                            关函数(partial autocorrection function,PACF)图判断
                用在时间序列的分析预测方面,其中循环神经网络                            模型可能阶数,进而建立备选模型。根据赤池信息
               (recurrent neural network,RNN)表现较好;而基于             准则(Akaike information criterion,AIC)以及贝叶斯
                RNN 的长期短期记忆网络(long⁃short term memory⁃             信息准则(Bayesian information criterion,BIC),从备
                neural network,LSTM)解决了 RNN 在分析预测时序               选模型中选择 AIC 和 BIC 最小的模型作为最优模
                数据中出现梯度消失、梯度爆炸及长期记忆能力不                            型 [10] 。
                足的问题,能更为有效地处理分析较长的时间序列                            1.2.2 LSTM模型
                数据,在环境、医疗等领域的时间序列预测中有着                                LSTM 将传统神经网络的神经元转化为储存器
                广泛的应用 ,且逐渐应用于流感,新型冠状病毒肺                           单元的结构,这个结构能够将时间序列中的隐藏信
                          [5]
                                           [6]
                炎等传染病的流行趋势预测 。本文以江苏省                              息储存并传递(图 1)。储存器单元包含 3 个门控装
                2005—2019 年猩红热逐月发病数据为基础构建                         置矩阵:输入门、遗忘门和输出门,由一条贯穿时间
                LSTM模型,通过与 SARIMA 模型预测精度的比较,                      步的细胞状态参与决定信息的存留 。
                                                                                                 [5]
                探讨 LSTM 模型在猩红热发病趋势预测中的应用                              第一步,需要决定要从细胞状态中丢弃的信
                价值。                                               息,由“遗忘门”的 sigmoid 函数实现(公式 1)。它通
                                                                  过 ht-1 (前一个输出)和 xt (当前输入)合并后,通过
                1  资料和方法
                                                                  sigmoid函数输出值为0和1之间的矩阵,1代表信息
                1.1  资料                                           被完全保留,而0代表信息被彻底删除。
                    2005—2019 年江苏省猩红热逐月发病数据来                           f = σ(W ⋅[h ,x + b f )               (1)
                                                                                      ] t
                                                                       t
                                                                             f
                                                                                 t - 1
                源于传染病报告管理系统。同期气象数据下载自                                         1
                                                                      σ( ) x =  -x                          (2)
                国家气象科学数据中心(http://data.cma.cn/),包括                          1 + e
                降雨量、降雨天数、大气压、水汽压、相对湿度、最低                              其中,ft表示 t 时刻遗忘门矩阵;σ表示 sigmoid
                气温、最高气温、平均气温、日照时长等。江苏省人                           函数(公式 2);ht表示 t 时刻 LSTM 神经网络神经元
                口基数大,常住人口数相对稳定,故本文使用猩红                            的输出;xt表示t时刻LSTM神经网络神经元的输入;
                热发病数代替发病率以反映流行情况。                                 W表示权重矩阵,b是门的偏差,其下标表示由这个

                1.2  方法                                           矩阵连接的变量。
                                                                      第二步,需要决定在细胞状态中存储和更新的
                1.2.1  差分自回归滑动平均(seasonal autoregressive
                integrated moving average,ARIMA)                  信息。首先,“输入门”的sigmoid函数决定将要更新
                    ARIMA模型即Box⁃Jenkins模型,已经被广泛应                  的值(公式3)。然后用tanh函数将创建候选细胞状
                用于各类传染病的时间序列分析。多项研究表明,                            态向量Ct,该向量用于细胞状态的更新(公式4)。最
   102   103   104   105   106   107   108   109   110   111   112