Page 120 - 南京医科大学学报自然科学版
P. 120

第41卷第2期
               ·270 ·                            南 京    医 科 大 学 学         报                        2021年2月


              均 绝 对 误 差 百 分 比(mean absolute percent error,          800
              MAPE)、平均绝对误差(nean absolute error,MAE)                 700
              的数值,综合选取最优模型,并对模型的预测效果                                600
              进行评价。                                                 ( 例 )  500
              1.3  统计学方法                                            发病人数  400
                  应用 SAS 9.4 建立 ARIMA 乘积季节模型;应用                     300
              R 3.5.0建立Holt⁃Winters三参数指数平滑模型。                       200
                                                                    100
              2  结 果
                                                                      0
                                                                      2007  2008  2009  2010  2011  2012  2013  2014  2015  2016  2017
              2.1  数据的初步分析
                                                                                      时间(年份)
                  考虑到上海市经济发达,人口流动性非常高,
                                                                  图2 2007—2017年上海市肺结核月发病数时间序列图
              因此分析本市居民与外来人口和整体发病数之间                             Figure 2  Time series of monthly reported number of pul⁃
              的关系。为了直观地比较,利用软件画出本市居民                                     monary tuberculosis cases in Shanghai from
              与外来人口随时间变化的堆积面积图(图1)。由图                                    2007 to 2017
              可知,本市居民与外来人口发病数占比随时间变化
              相对比较平稳,呈季节性趋势,也就是整体与部分                            对该序列进行白噪声检验,其自相关检查的 P 值均
              的病例数的趋势相对一致,因此可将上海市的病例                            <0.05,具有统计学意义,判定上海市肺结核月发病
              数进行整体分析。                                          数的时间序列属于非白噪声序列。再对序列作1阶
                                                                12 步差分,提取其趋势效应和季节效应后,时序图
                  900                                外来人口       基本平稳(图3)。
                  800                                本市居民
                 ( 例 )  700                                          600
                  600
                                                                     500
                 发病人数  400                                           400
                  500
                  300
                                                                     300
                  200                                              ( 例 )  200
                  100                                                100
                   0                                                   0
                          2010年1月
                   2008年1月
                                2012年1月
                                                   2018年1月
                                             2016年1月
                                      2014年1月
                2007年1月  2009年1月 2011年1月 2013年1月  2015年1月 2017年1月  发病人数  -100
                                                                    -200
                                                                    -300
                                      时间                            -400
              图 1  上海市 2007—2017 年本市居民与外来人口肺结核的                     -500
                                                                    -600
                   发病数
              Figure 1  The number of pulmonary tuberculosis cases     2007  2008  2009  2010  2011  2012  2013  2014  2015  2016  2017
                                                                                       时间(年份)
                       among residents and migrants in Shanghai      图 3  2007—2017年上海市肺结核发病数差分图
                       from 2007 to 2017                        Figure 3  Difference of the number of pulmonary tubercu⁃
                                                                         losis cases in Shanghai from 2007 to 2017
              2.2  ARIMA模型
              2.2.1 数据预处理                                       2.2.2 模型识别与定阶
                  绘制 2007 年 1 月—2017 年 12 月肺结核发病数                    序列具有连续相关性和季节性,说明适合ARI⁃
              的时序图。从图 2 可以观察到,肺结核发病数随时                          MA 乘积季节模型 ARIMA(p,d,q)×(P,D,Q) S。经
              间变化总体上呈下降的长期趋势,并且序列取值以                            1 阶 12 步差分处理后,序列的长期趋势和季节周期
              12个月为周期呈现出有规则的上下波动。具体地,                           性被很好地消除,故判断d=1,D=1,s=12。根据差分
              肺结核发病数从每年的1—2月开始上升,在该年的                           后序列的自相关函数(ACF)图和偏自相关函数

              3—4 月先达到 1 个高峰,继而波动式下降,在 11—                      (PACF)图(图 4),ACF 图显示延迟 1 阶自相关系数
              12 月份左右略有上升后再持续下降到次年 1—2 月                        显著非零,PACF图显示延迟1、2阶偏自相关系数均
              份,跌落谷底。                                           大于 2 倍标准差,故 q 可能取 0、1,p 可能取 0、1、2。
                  由原始序列图可知序列不平稳,存在周期性。                          此外,考虑序列的季节自相关特征,差分后的 ACF
   115   116   117   118   119   120   121   122   123   124   125