Page 120 - 南京医科大学学报自然科学版
P. 120
第41卷第2期
·270 · 南 京 医 科 大 学 学 报 2021年2月
均 绝 对 误 差 百 分 比(mean absolute percent error, 800
MAPE)、平均绝对误差(nean absolute error,MAE) 700
的数值,综合选取最优模型,并对模型的预测效果 600
进行评价。 ( 例 ) 500
1.3 统计学方法 发病人数 400
应用 SAS 9.4 建立 ARIMA 乘积季节模型;应用 300
R 3.5.0建立Holt⁃Winters三参数指数平滑模型。 200
100
2 结 果
0
2007 2008 2009 2010 2011 2012 2013 2014 2015 2016 2017
2.1 数据的初步分析
时间(年份)
考虑到上海市经济发达,人口流动性非常高,
图2 2007—2017年上海市肺结核月发病数时间序列图
因此分析本市居民与外来人口和整体发病数之间 Figure 2 Time series of monthly reported number of pul⁃
的关系。为了直观地比较,利用软件画出本市居民 monary tuberculosis cases in Shanghai from
与外来人口随时间变化的堆积面积图(图1)。由图 2007 to 2017
可知,本市居民与外来人口发病数占比随时间变化
相对比较平稳,呈季节性趋势,也就是整体与部分 对该序列进行白噪声检验,其自相关检查的 P 值均
的病例数的趋势相对一致,因此可将上海市的病例 <0.05,具有统计学意义,判定上海市肺结核月发病
数进行整体分析。 数的时间序列属于非白噪声序列。再对序列作1阶
12 步差分,提取其趋势效应和季节效应后,时序图
900 外来人口 基本平稳(图3)。
800 本市居民
( 例 ) 700 600
600
500
发病人数 400 400
500
300
300
200 ( 例 ) 200
100 100
0 0
2010年1月
2008年1月
2012年1月
2018年1月
2016年1月
2014年1月
2007年1月 2009年1月 2011年1月 2013年1月 2015年1月 2017年1月 发病人数 -100
-200
-300
时间 -400
图 1 上海市 2007—2017 年本市居民与外来人口肺结核的 -500
-600
发病数
Figure 1 The number of pulmonary tuberculosis cases 2007 2008 2009 2010 2011 2012 2013 2014 2015 2016 2017
时间(年份)
among residents and migrants in Shanghai 图 3 2007—2017年上海市肺结核发病数差分图
from 2007 to 2017 Figure 3 Difference of the number of pulmonary tubercu⁃
losis cases in Shanghai from 2007 to 2017
2.2 ARIMA模型
2.2.1 数据预处理 2.2.2 模型识别与定阶
绘制 2007 年 1 月—2017 年 12 月肺结核发病数 序列具有连续相关性和季节性,说明适合ARI⁃
的时序图。从图 2 可以观察到,肺结核发病数随时 MA 乘积季节模型 ARIMA(p,d,q)×(P,D,Q) S。经
间变化总体上呈下降的长期趋势,并且序列取值以 1 阶 12 步差分处理后,序列的长期趋势和季节周期
12个月为周期呈现出有规则的上下波动。具体地, 性被很好地消除,故判断d=1,D=1,s=12。根据差分
肺结核发病数从每年的1—2月开始上升,在该年的 后序列的自相关函数(ACF)图和偏自相关函数
3—4 月先达到 1 个高峰,继而波动式下降,在 11— (PACF)图(图 4),ACF 图显示延迟 1 阶自相关系数
12 月份左右略有上升后再持续下降到次年 1—2 月 显著非零,PACF图显示延迟1、2阶偏自相关系数均
份,跌落谷底。 大于 2 倍标准差,故 q 可能取 0、1,p 可能取 0、1、2。
由原始序列图可知序列不平稳,存在周期性。 此外,考虑序列的季节自相关特征,差分后的 ACF