-
病毒性肝炎(简称肝炎,hepatitis)可分为甲型 (hepatitis A)、乙型(hepatitis B)、丙型(hepatitis C)、丁型(hepatitis D)和戊型(hepatitis E),在没有及时的救治与干预情况下会进一步发展为肝硬化、肝衰竭以及肝癌[1-2],甚至导致死亡。我国是肝炎高发国家,近年来,我国在病毒性肝炎防治方面取得巨大成就,但由于人口众多,肝炎感染者的基数大、病情长久、医治负担沉重等因素,肝炎防治仍然任重道远,因此,肝炎的早发现、早治疗、早干预意义重大[3-4]。分析传染病流行的特征和规律,及早做出预测是对疾病未来发生、发展趋势认知的重要手段,是制定传染病防控策略的重要前提。
-
时间序列分析方法能对一定时间段的连续性观测数据进行相关特征地提取并分析其变化过程与发展规律,被广泛用于社会各个领域[5-7]。本文通过时间序列分析我国4种肝炎(甲型、乙型、丙型和戊型)近10年(2012 2021年)流行的周期性特征和长期变化趋势,并探讨季节自回归移动平均模型(autoregressive integrated moving average model, ARIMA)和季节指数平滑模型(exponential smoothing model,ES)在肝炎发病预测中的应用和预测效果比较,发现适合我国肝炎发病分析的时间序列模型,为传染病的防控救治工作提供参考依据和建议。
-
1 资料和方法
-
1.1 资料
-
数据来自国家卫健委(http://www.nhc.gov.cn)发布的2012年1月—2022年8月全国甲型、乙型、丙型及戊型肝炎的月发病例数统计资料(目前卫健委发布的最新数据)。丁型肝炎的月发病例数较少,以 2021年为例,平均每月发病例数为24.42例,仅为甲肝、乙肝、丙肝、戊肝发病数的2.36%、0.02%、0.12% 和 1.09%,由于缺少 2015 年及以前的统计数据,未纳入本次研究范围。
-
1.2 方法
-
对2012年1月—2021年12月数据进行时间序列的季节性分解,探讨10年来我国4种肝炎流行特征和长期趋势。由于肝炎发病有一定的季节性规律,本文用季节ARIMA 模型和季节ES模型分别对 4种肝炎进行建模与预测,其中2012年1月—2021年 12月的10年数据用于建立模型,2022年1-8月数据用于预测,并对预测的效果进行评价与比较。
-
ARIMA模型是通过时间序列数据的自回归、移动平均和差分等变换,建立一个能够描述数据特征的模型,并利用这个模型来预测未来的数据变化[8-9]。季节 ARIMA 模型适用于由于季节性变化(包括季度、月度等)或其他一些因素引起的周期性变化的时间序列。
-
ES模型是一种特殊的加权移动平均法[5],其特点是以无穷大为宽度,各历史值的权重随时间的推移呈指数衰减,从而给近期的观察值较大的权数,给远期的观察值以较小的权数,用当前值和历史值来预测未来值。季节ES模型适用于有季节性趋势的时间序列。
-
两种模型都用SPSS 27 统计软件完成计算。最优模型用SPSS提供的如下指标进行评价筛选[10]:平稳R2 和R2,这2个指标值越大,说明模型拟合效果越好;平均绝对误差百分比,即相对误差绝对值的平均值(mean absolute percentage error,MAPE),指标值越小,说明模型拟合的误差越小;贝叶斯信息准则 BIC(Bayesian information criterion),这个指标值越小,说明模型对数据的解释力越强,模型越好。
-
两个模型 A、B 的筛选:对指标值较大为优者,计算指标I的相对差值,对指标值较小为优者,计算指标I的相对差值。显然,当 >0 时,模型 A 优于模型 B,反之,模型 B 优于模型 A。对多个指标,综合得到∑,当∑ >0时,模型A 优于模型B,反之,模型B优于模型A。
-
对于多个模型,依次进行比较,选择最优模型。
-
2 结果
-
2.1 流行特征
-
我国 4 种肝炎 2012—2021 年的月发病例数的描述统计(表1)显示,肝炎发病例数最多的时间集中在 2019 年之前,发病例数最少的时间集中在 2019 年以后,由此可见,近年来我国肝炎的防治工作卓有成效;月发病例数最大值与最小值的比值为 1.26~3.67;以甲型肝炎平均月发病例数为基数1,乙型、丙型、戊型肝炎分布是甲型肝炎的57.06、11.50、 1.35倍,说明乙型肝炎和丙型肝炎发病人数众多(平均月发病例数分别接近 10 万和 2 万),是我国肝炎人群的防控重点。
-
图1为我国4种肝炎的月发病例数10年时间的序列图,既有长期上升或下降的趋势,也有每年的周期性波动,为了更清晰地探讨这些变化规律,将时间序列进行季节性加法分解[10]。时间序列经过季节性加法分解,可分解为周期性的季节因子、长期趋势因素和随机误差项。
-
图1 4种肝炎2012—2021年月发病例数
-
Figure1 Number of monthly incidents of four types of hepatitis from 2012 to 2021
-
2.1.1 季节因子
-
本次肝炎发病例数为年、月的统计资料,故时间序列周期长度(s)=12。
-
图2为我国4种肝炎发病例数的季节因子。季节因子 <0表示季节水平低于平均值,季节因子 >0 表示高于平均值。
-
通过季节因子可以发现各类肝炎发病的季节性周期规律:甲型肝炎在每年的 2 月发病例数较少,3、7、8、9 月发病例数较多;乙型和丙型肝炎较为相似,在每年的2月发病例数较少,3月发病例数较多;戊型肝炎在 10 月发病例数较少,3 月发病例数较多。
-
2.1.2 长期趋势
-
图3 为我国 4 种肝炎 10 年来月发病例数的长期变化趋势。甲型肝炎除了在2014年和2019年有较大的发病例数,总体保持下降趋势;乙型肝炎总体趋势较复杂,2012 年发病例数有较大下降, 2013—2016年保持相对平稳,2017年上升,2020年有较大的下降,2021年又开始上升,近年来有上升趋势;丙型肝炎除了在2020年有较大的下降,总体呈上升趋势;戊型肝炎除了2020年有较大的下降,总体保持平稳趋势。在发病例数上升和平稳的情况下,乙型、丙型和戊型肝炎发病例数在2020年都有较大的下降,这与新冠疫情期间采取防疫措施减少了传染机会有关。
-
图2 4种肝炎1-12月的季节因子
-
Figure2 Seasonal factors of four hepatitis types from January to December
-
图3 4种肝炎发病例数的长期趋势
-
Figure3 Long term trend of the number of cases of four types of hepatitis
-
2.2 时间序列模型与预测
-
建立合适的统计模型对传染病发病趋势进行预测,可以提前准备好各项应对措施和防控预案。由图2 和图3 可知,肝炎的发病率有季节性的变化规律和长期变化趋势,本文选择季节性的时间序列进行建模和预测。
-
2.2.1 季节ARIMA模型
-
季节ARIMA模型要求时间序列是平稳的,序列的平稳性可用ADF 检验,即单位根检验[11],原假设为:序列存在单位根,即非平稳序列。不平稳的时间序列通过差分可以消除数据的波动性,转化为平稳序列。当时间序列经过差分能够达到平稳状态时,可以对当前值和历史值以及随机误差项进行回归分析来预测未来值。季节ARIMA模型可表示为 ARIMA(p,d,q)(P,D,Q)s,其中 s 为季节的周期长度,d 为差分阶数,D为季节差分阶数,p为自回归阶数,P为季节自回归阶数,q为移动平均阶数,Q为季节移动平均阶数。
-
图1显示甲型、乙型、丙型和戊型4种肝炎数据序列不平稳,ADF检验的显著性均有P >0.05(分别为0.813、0.553、0.598和0.894);通过一阶差分(d=1) 和一阶季节差分(D=1)后的时间序列都达到平稳 (图4),ADF 检验的显著性均有 P <0.05(分别为 0.001、0.019、0.001和0.001)。
-
理论研究表明,参数 p、q 的取值可分别通过偏自相关(PACF)图和自相关(ACF)图来确定[5]。由于数据误差等原因,当实际的偏自相关(PACF)图和自相关(ACF)图无法确定p、q时,可以取p、q的不同值用枚举法进行筛选。目前没有较好的方法直接确定参数 P、Q 的取值,在实际应用中,也取 P、Q 的不同值用枚举法进行筛选。输入这4个参数,SPSS 可以建立ARIMA模型并进行预测。
-
图4 4种肝炎发病例数一阶差分、一阶季节差分后的时间序列图
-
Figure4 Time series diagram of four types of hepatitis incidence cases after first⁃order difference and first⁃order seasonal difference
-
根据已有相关文献研究成果可知[9],一般情况下,p、q和P、Q取值超过2阶的情况比较少见,本文都取为0、1、2进行筛选,从而各类肝炎这 4个参数的不同选择共有 81 种备选模型。根据平稳 R2、R2、 MAPE、BIC 4 个指标,各种肝炎选取的最优 ARIMA 模型见表2。
-
2.2.2 季节ES模型
-
SPSS 提供了 3 种季节性 ES 模型:简单模型、 Winters 加法模型和 Winters 乘法模型(以下分别简称为加法模型和乘法模型)。简单模型包含水平和季节两个参数,加法模型和乘法模型包含水平、趋势和季节3个参数。因为肝炎流行包含长期趋势,故不考虑简单模型。本文建立加法模型和乘法模型并进行筛选。
-
由表3 可知,对于甲型肝炎,平稳 R2 和 R2 指标为加法模型大于乘法模型,MAPE 和 BIC 指标为加法模型小于乘法模型,从而各 >0,∑ >0,故加法模型优于乘法模型。同理可知,乙型肝炎、丙型肝炎也是加法模型优于乘法模型。对戊型肝炎,加法模型和乘法模型 4 个指标相对差值依次为 0.104、-0.005 和 0.520、-0.002,从而有∑ >0,故加法模型优于乘法模型。
-
综合表3的各个指标,4种肝炎的ES模型以加法模型为优。
-
2.2.3 预测
-
一个合适的模型不仅拟合效果要好,还需要通过预测效果来评价其应用价值。将表2 筛选的 ARIMA模型和表3的ES模型分别对2022年1 8月肝炎发病例数进行预测。
-
由表4 各类肝炎的月发病例数预测 MAPE 可知:对于甲型肝炎,ES 模型为 7.1%,ARIMA 模型为 9.3%;对于乙型肝炎,ES模型为5.2%,ARIMA 模型为6.2%;对于丙型肝炎,ES模型为7.9%,ARIMA模型为8.4%;对于戊型肝炎,ES模型为4.2%,ARIMA 模型为11.2%。4种肝炎的ES模型预测的MAPE都小于ARIMA模型。因此,从应用的预测效果来看,病毒性肝炎的时间序列模型,ES 模型较 ARIMA 模型更适合。
-
3 讨论
-
传染病的发生和流行对社会危害极大,不仅损害人们的身体健康、降低人均寿命,也给社会医疗、卫生资源带来极大损失。总结传染病流行特征的规律性,并建立合适的统计模型并进行预测,对于全面掌握传染病的发生、发展的变化趋势,及早做好防控工作意义重大。本研究表明,通过时间序列的分解,可以提取出肝炎流行特征的周期规律性和长期变化趋势;通过时间序列建模,可以对未来的趋势进行预测。
-
我国近10年病毒性肝炎有如下的发病特征与趋势:3月份是各类肝炎的高发期,要提前做好防治措施;甲型肝炎总体呈下降趋势,乙型肝炎总体趋势较复杂,近年来有上升趋势,丙型肝炎总体呈上升趋势,戊型肝炎总体保持平稳。虽然我国肝炎防治工作成果显著,但从目前肝病的流行趋势看,我国的肝炎防治工作任务艰巨,还需加大投入,采取控制传播源、切断传播途径、定期接种疫苗、保护易感人群等多种方法来预防。特别是乙型和丙型肝炎发病人数众多,发病有上升趋势,是肝炎人群的防治重点。
-
通过建立合理的统计模型可以对传染病的发生趋势进行预测,目前用的较多的时间序列模型有灰色预测模型、ES模型和ARIMA模型等,如何选择合适的模型进行预测是一个值得探讨的有应用价值的课题。灰色预测模型计算简便、可以用较少的数据进行预测,对处理单调的数据序列类型具有较强的能力,但对有周期性波动的数据序列预测效果较差。由于传染病发病有其自身的特殊规律性,例如季节性的周期规律和长期变化趋势,大量的文献研究报道采用季节ARIMA模型和季节ES滑模型[12-15]。季节ARIMA和ES模型都有较好的预测效果,ARIMA 模型参数较多,优点是可以通过调节多个参数来适应各种情况,提高预测效果,缺点是对数据的要求较高(数据平稳),模型确定困难(前面的各种肝炎的计算中,要在多个模型中选择较优模型)、参数计算复杂,结果会导致过度拟合和预测效果不稳定。季节 ES 模型相对简单,但有计算简便和稳定性好的优点。从传染病趋势预测的适用性来看,本研究显示,ES 模型对 4 种肝炎的预测效果都高于 ARIMA 模型,表明季节 ES 指数模型中水平、趋势和季节这 3 个参数,能体现肝炎发病的流行规律,且具有计算简便、应用面广且预测精度高的优点。
-
目前传染病流行趋势和预测的研究,多数文献报道仅限于一种疾病和一种方法[8-9,12-13],单一病种和单一方法往往会有一定的局限性和偶然性,缺乏普遍的适用性。本文首次同时用我国甲、乙、丙、戊型4种肝炎的10年变化数据,分析肝炎发病的季节性规律和长期趋势,并用多种模型进行建模和比较分析,从而可以更全面地了解肝炎发病的普遍规律和对选择合适的时间序列模型做出更客观的评价。
-
参考文献
-
[1] 杨瑞锋,陈红松.《2022—2030年全球卫生部门关于艾滋病、病毒性肝炎和性传播疾病行动计划》在病毒性肝炎领域的要求:解读及临床实践[J].中华检验医学杂志,2023,46(1):12-18
-
[2] 张翀,窦晓光.重视病毒性肝炎临床终点事件与疗效评价[J].中国实用内科杂志,2023,43(5):353-354
-
[3] 邵沛.积极预防主动检测规范治疗全面遏制肝炎危害——记2019年世界肝炎日宣传大会[J].中国社会组织,2019(15):33-35
-
[4] 吴晓宁,尤红,贾继东.迈向再无病毒性肝炎威胁的 2030[J].肝脏,2023,28(1):28-30
-
[5] 王燕.应用时间序列分析[M].北京:中国人民大学出版社,2015:196-201
-
[6] 王一龙,董韶妮,孙丽萍,等.时间序列模型预测大气臭氧浓度[J].济南大学学报(自然科学版),2023,37(2):178-183
-
[7] 许泽杰,刘冬生.时间序列预测模型用于新冠肺炎疫情对住院业务的影响分析[J].中国卫生统计,2022,39(3):435-437
-
[8] 游楠楠,刘巧,李忠奇,等.基于ARIMA模型的江苏省不同地区肺结核发病趋势的预测[J].南京医科大学学报(自然科学版),2020,40(6):909-914,919
-
[9] 丁勇,吴静,武丹,等.ARIMA 乘积季节模型预测我国戊肝的发病趋势[J].南京医科大学学报(自然科学版),2020,40(11):1725-1729
-
[10] 邓维斌,付强,周玉敏.SPSS统计分析实用教程[M].3版.北京:电子工业出版社,2023:269-280
-
[11] 陈刚,郭鹏,皮鹤,等.基于单位根检验和ARMA模型的桥墩位移稳定性时间序列分析[J].武汉工程大学学报,2023,45(5):586-590
-
[12] 严婧,杨北方.指数平滑法与ARIMA模型在湖北省丙型病毒性肝炎发病预测中的应用[J].中国疫苗和免疫,2017,23(3):292-297
-
[13] 卞子龙,卓莹莹,贺志强,等.应用乘积季节模型与指数平滑模型预测上海市肺结核疫情[J].南京医科大学学报(自然科学版),2021,41(2):268-273
-
[14] 桂成,王国林,陶源,等.指数平滑法与ARIMA模型在四级手术人次预测中的应用[J].现代医院,2021,21(12):1860-1863
-
[15] 李佳顺.基于季节ARIMA和指数平滑模型的我国全社会总用电量的预测[J].应用数学进展,2022(3):1021-1030
-
摘要
目的:分析我国20122021年4种病毒性肝炎流行特征的季节性规律和长期趋势,探讨适合肝炎发病预测的时间序列模型,为科学防控肝炎提供参考依据和建议。方法:对我国2012年1月—2021年12月甲型、乙型、丙型和戊型肝炎的月发病例数进行时间序列的季节性分解,建立季节自回归移动平均模型(autoregressive integrated moving average model,ARIMA) 和季节指数平滑模型(exponential smoothing model,ES),并对2022年18月4种肝炎的发病例数进行预测,并比较预测效果。结果:每年3月份是各类肝炎发病的高发期,10年期间,甲型肝炎总体保持下降趋势,乙型肝炎总体趋势有升有降,近年来有上升趋势;丙型肝炎总体呈上升趋势;戊型肝炎总体保持平稳趋势。乙型、丙型和戊型肝炎月平均发病例数分别为甲型肝炎的 57.06倍、11.50倍、1.35倍。季节ES模型的预测效果要优于季节ARIMA模型。结论:我国乙型和丙型肝炎发病人数众多,要加强重点防控。时间序列的季节性分解可用于分析肝炎流行特征的季节性规律和长期趋势,季节指数平滑模型中水平、趋势和季节3个参数,能体现肝炎发病的流行规律,在肝炎发病预测中,具有模型简单、计算简便、预测精度高的优点。
Abstract
Objective:To analyze the seasonal patterns and long-term trends of the 10 year epidemic characteristics of four types of viral hepatitis in China from 2012 to 2021,and explore a time series model suitable for forecasting predicting hepatitis incidence, providing reference and suggestions for scientific hepatitis prevention and control. Methods:Seasonal decomposition of the time series was conducted on the monthly incidence of hepatitis A,B,C,and E in China from January 2012 to December 2021. A seasonal autoregressive integrated moving average model(ARIMA)and a seasonal index smoothing model(ES)were established to predict the incidence of four types of hepatitis from January to August 2022,and the predictive effects were compared. Results:March of each year is the peak period for the incidence of all types of hepatitis. Over the 10 year period,the hepatitis A showed an overall decreasing trend,hepatitis B had fluctuating trends with recent years showing an increasing trend,hepatitis C showed an overall increasing trend, and hepatitis E remained stable overall. The monthly average incidence of hepatitis B,C,and E were 57.06 times,11.5 times,and 1.35 times higher than that of hepatitis A,respectively. The prediction performance of the seasonal ES model was better than that of the seasonal ARIMA model. Conclusion:There are a large number of patients with hepatitis B and C in China,and key prevention and control efforts need to be strengthened. The seasonal decomposition of time series can be used to analyze the seasonal patterns and long -term trends of hepatitis prevalance. The seasonal ES model includes three parameters:level,trend,and seasonality,which can reflect the epidemic pattern of hepatitis. In the prediction of hepatitis incidence,it has the advantages of being simple,easy to calculate,and high prediction accuracy.
Keywords
viral hepatitis ; time series ; seasonal decomposition ; forecast