Page 119 - 南京医科大学学报自然科学版
P. 119
第41卷第2期 卞子龙,卓莹莹,贺志强,等. 应用乘积季节模型与指数平滑模型预测上海市肺结核疫情[J].
2021年2月 南京医科大学学报(自然科学版),2021,41(02):268-273 ·269 ·
布的2017年全国法定传染病疫情概况显示,全国(除 ARIMA模型的基本思想是,将预测值随时间迁
港澳台地区)全年共报告肺结核发病835 193例,在乙 移而形成的数据序列视为一个随机序列,用相对应
类传染病中发病数和死亡数均居第 2 位,已经成为 的数学模型来描述该序列中的自相关性。当模型
我国重点关注的公共卫生问题。上海市疾病预防 被识别后,就可从该时间序列的过去值及现在值来
控制中心公布的上海市传染病疫情报告显示,2017 预测未来值。建立 ARIMA 时间序列模型可归纳为
年全市居民新登记肺结核 3 624 例,发病率 24.9/10 3个主要步骤:①数据的预处理(序列的平稳化):观
万,较 2016 年下降 3.0%;外来流动人口新登记肺结 察时序图、自相关分析图判断平稳性,通过相应差
核 2 821 例,发病数较 2016 年下降 2.6%。虽然上海 分进行序列的平稳化,进行白噪声检验;②模型的
肺结核疫情已得到了有效的控制,但由于耐多药肺 识别、定阶与模型参数估计:采用 Box⁃Jenkins 方法
结核的流行、人口老龄化加速以及外来人口流动性 建立ARIMA时间序列分析模型,也就是立足于考察
增加等问题,上海的结核病防治工作又面临着新的严 数据的样本自相关、偏相关函数判断相应的阶数,
峻考验,上海地区的结核病防控依然不容轻视 [3-4] 。 季节长度 s 可由实际应用背景的分析得到;③模型
时间序列是指将相同统计指标的数值按其发 的诊断检验及预测:典型方法是对观测值和模型拟
生的时间先后顺序排列而成的数列,对其分析的主 合值的残差进行白噪声分析,同时可以结合赤池信
要目的是根据对已有历史数据规律的挖掘从而实 息准则(Akaike information criterion,AIC)、Schwarz
现对未来的预测,故近年来被越来越广泛地应用在 贝叶斯准则(Schwarz Bayesian criterion,SBC),选取
传染病的发病预测中。本文采用两种时间序列模 较优模型进行预测 。
[7]
型——自回归移动平均模型(autoregressive integrat⁃ 1.2.2 指数平滑模型
ed moving average model,ARIMA)乘积季节模型与 指数平滑法是布朗(Robert G.Brown)提出的一
指数平滑模型对上海市 2007 年 1 月—2017 年 12 月 种在移动平均法的基础上发展而来的时间序列分
肺结核月发病人数进行拟合分析,预测2018年1—6 析预测方法,通过计算指数平滑系数,配合以时间
月的肺结核月发病人数,并与实际值进行比较,探 序列预测模型对未来的现象做出预测。事实上,大
讨这两种模型在上海市肺结核疫情预测中的效果, 多数随机事件,一般都是近期的数据会对现在的影
确定预测肺结核发病趋势的最优模型,为上海市肺 响大,远期的数据会对现在的影响小。指数平滑法
结核防控工作提供科学依据。 的基本思想就是考虑时间间隔对时间发展的影响,
并且各期权重随时间间隔的增大呈指数衰减。指
1 资料和方法
数平滑法的预测步骤为:①绘制序列图;②根据序
1.1 资料 列图确定有效参数;③绘制拟合曲线图,并观察拟
数据资料来源于上海市疾病预防控制中心网 合效果;④建立指数平滑模型,对数据进行预测。
站(网址:http://www.scdc.sh.cn/)2007 年 1 月—2018 根据序列是否具有长期趋势与季节效应,可以
年 6 月上海市法定报告传染病疫情资料,其中 2007 把序列分为 3 大类,采用 3 种不同的指数平滑模型
年 1 月—2017 年 12 月的肺结核发病数据用于建立 进行序列预测,具体模型选择见表1 。
[8]
模型,2018年1—6月的数据用于验证模型的预测效 表1 指数平滑预测模型的使用场合
果,从而确定最优模型。 Table 1 The usage scenarios of exponential smoothing
1.2 方法 model
1.2.1 ARIMA乘积季节模型 预测模型选择 长期趋势 季节效应
ARIMA 是由美国统计学家 Box 和英国统计学 简单指数平滑 无 无
家Jenkins提出的著名时间序列预测模型之一,又称 Holt两参数指数平滑 有 无
Holt⁃Winters三参数指数平滑 无/有 有
Box⁃Jenkins 模型。本研究应用同时带有季节性与
趋势性的 ARIMA 乘积季节模型 ARIMA(p,d,q)× 指数平滑模型含有常规参数、趋势参数和季节
(P,D,Q) S,其中参数 p、d、q 分别为非季节自回归阶 参数等3个重要参数,在通常情况下,应综合运用整
数、非季节差分阶数、非季节移动平均阶数,P、D、Q 体均值、整体趋势以及季节性进行预测,通过不同
分别为季节自回归阶数、季节差分阶数、季节移动 参数值的组合进行拟合。在选择较优模型时,通过
平均阶数,s为季节周期 [5-6] 。 比较均方根误差(root mean square error,RMSE)、平