-
传染病一直伴随着人类的发展,对人类健康构成严重威胁,而基本卫生设施的完善,生活水平的提高以及药物和疫苗的研发又促使总发病率和病死率稳步下降[1]。在中国,1970—2007年,连续报告的18种传染病的年发病率不断下降,从每10万人4 000多例下降到每10万人少于250例[2]。
-
目前国内针对法定传染病的时空分析较为成熟,如张淼等[3] 利用空间自回归对甲乙类传染病进行空间聚集性分析,王志心等[4] 利用机器学习的方法对各省份新型冠状病毒肺炎疫情进行预测。在可视化方面,金思辰等[5] 基于传染病时空数据进行聚类分析,并设计可视化系统,但编程较为专业。高效清晰的数据可视化可以让研究人员更容易掌握客观情况并采取更有效的应对方法。用图形表现复杂的数据,比传统的统计分析法更加形象且具有启发性。因此,公共卫生研究人员可以借助传染病数据的可视化图表更好地寻找数据规律、分析推理、预测未来趋势。
-
Shiny是其开发团队针对R语言开发的网页应用开发框架,可允许用户使用纯R语言开发界面简洁、功能强大可发布的网页应用。通过建立交互式图表和应用程序的Web框架,实现网页应用与数据处理的无缝衔接,可将分析结果转化为交互式Web视觉效果[6]。因此本研究利用它设计了一款集数据分析与可视化为一体的分析系统——中国法定传染病可视化分析系统。
-
了解传染病的流行趋势,加强传染病的预防和控制,对于公共卫生安全具有重要意义。本研究通过收集整理2004—2017年法定传染病的病例数、死亡情况、发病率、病死率和年龄分布数据,旨在分析中国39种法定传染病的流行情况,包括时间和空间趋势,为政府制定最佳防控策略提供科学依据。
-
1 资料和方法
-
1.1 资料
-
数据资料来自国家人口与健康科学数据共享平台(http://www.ncmi.cn/),收集2004—2017年应呈报的甲、乙、丙3类共39种法定报告传染病的发病数、死亡数、发病率、病死率和年龄分布数据。其中甲类2种、乙类26种、丙类11种。甲类传染病和乙类传染病中的肺炭疽和严重急性呼吸综合征(severe acute respiratory syndrome,SARS)在诊断后2h内应在线报告,其余乙类和丙类传染病应在24h内报告[7]。
-
1.2 方法
-
该系统由软件RStudio在R语言环境下(R ⁃ 3.5.2)编程完成。通过安装多种功能的R包(shiny、 ggplot2、maps、pheatmap、gplots、plyr、dplyr、spdep、 inla等),可实现多种统计分析与可视化功能。假设检验的水准α=0.05,为双侧检验。
-
Shiny是用于R的Web应用程序框架,可用于构建交互式Web应用程序。创建应用程序需要两个R脚本:一个名为ui.R的用户界面脚本和一个服务器脚本server.R。用户界面脚本控制应用程序的布局和外观。服务器脚本包含R对象以及如何显示它们的有关说明。该应用程序使用一种称为反应性的功能来支持交互性。这样,用户对文本、日期及其他输入内容进行修改后,相应的R对象将得到自动更改。
-
本研究设计的可视化系统框架详见图1所示。
-
图1 可视化系统框架
-
Fig.1 Framework of visualized system
-
2 结果
-
系统的主界面如图2所示,包括4个功能模块:总体概述、表格制作、统计分析和图形绘制,其中图形绘制的可视化功能为平台的特色与主要功能。本系统通过读取指定的传染病数据信息,对数据信息进行综合处理,通过数据汇总和分析,可以对多年的传染病数据进行统计学分析与可视化呈现。
-
图2 可视化系统主界面
-
Fig.2 The main interface of the visual system
-
2.1 总体概述模块
-
总体概述模块中主要包括系统简介,介绍了可视化系统设计的背景,这是一款兼具数据分析与可视化功能的系统。同时在该模块中还以动态式和交互式地图的形式展现了2016年中国地区(除港、澳、台)法定报告传染病的发病率分布情况,表1展示了具体的发病情况。
-
2.2 表格制作模块
-
表格制作模块分为年龄数据、月份数据、年龄分层数据、地区数据、按传染途径分类数据5个部分。如按年龄分层数据(图3),通过读入指定数据,可以对各层数据进行标化从而得到热图的目标数据集。其他数据类型类似,不赘述。
-
2.3 统计分析模块
-
在统计分析模块中,可以对发病情况进行人群、时间、空间和时空交互这4个层面的分析。
-
人群分析,分为年龄分层分析和疾病种类分析。图4展示疾病年龄聚类分析的结果,如手足口病、腮腺炎在儿童中的发病要高于成人;而乙肝、淋病成人发病较多。同时能够找出发病年龄结构类似的疾病,如淋病和艾滋病的发病年龄结构类似,同样高发于成人。另外,对地区的传染病数据进行聚类分析,也可找出发病结构类似的省份。
-
*:此系统暂未收集到香港、澳门和台湾地区的数据。
-
时间层面的分析,利用时间序列分析的ARIMA模型[8-9]、指数平滑模型预测未来的发病变化情况,并给出95%可信区间,预测未来年份的传染病发病变化情况。卡方趋势分析,则以统计表格的形式判断39种传染病发病率的升降情况。
-
空间层面的分析,使用空间自相关分析以及重心迁移技术。空间自相关是检验空间单元属性聚集程度的一种有效方法,可以用来探索传染病的空间聚集性以及发病率的中心改变情况。空间自相关分为全局空间自相关和局部空间自相关两大类,Moran’s I指数法是最为基本和重要的方法[10]。通过将Global Moran’s I指数的观测值与其期望值E(I)进行比较,可以判定其空间相关性,但是仍然要严格检验两者之间的差异是否具备统计学上的显著性水平。可通过Z统计量来进行检验。根据正态分布检验,在显著性水平α下,当P< α,表明区域之间的属性分布具有显著的空间相关关系;当P>α,表明区域之间的属性分布不具有显著的空间相关关系[11-12]。对2004年39种传染病的空间分布进行分析,利用 P 值来判断聚集性是否明显,这里P=0.267 7表明聚集性并不明显(图5)。
-
图3 年龄分层数据
-
Fig.3 Age stratified data
-
图4 年龄分层热图
-
Fig.4 The heatmap of age stratified data
-
时空交互分析,使用贝叶斯时空模型和时空扫描统计量的方法。贝叶斯时空模型是根据贝叶斯统计原理对具有时空属性的数据资料进行建模。模型中所有未知参数均作为随机变量,利用先验分布对风险估算时可借用邻近时空信息较好地解决复杂时空结构中的异质性问题,充分考虑传染病的时空属性[13]。相对于直接利用各省发病率来描述传染病的相对风险,贝叶斯时空模型可以分析区域间的相邻关系,使得估计结果不易受样本量与极端值的影响[14],除此之外,相较于空间层面仅能对1年情况分析的方法,贝叶斯时空模型将时间变量纳入分析。
-
图5 空间自相关分析
-
Fig.5 Spatial autocorrelation analysis
-
2.4 图形绘制模块
-
在图形绘制模块,以折线图、极图、盒图、地图热力图等多种静态和交互式图片的形式将数据可视化,这也是平台的特色之一。
-
极图用颜色深浅显示了39种传染病历年的发病变化情况(图6)。如流感扇区,从内向外显示了2004—2017年流感的发病变化。每种传染病每年的发病率,做成极图形式,可以直观看出哪些年份传染病盛行,哪些传染病倾向于同时发生。
-
根据各省份的发病率画出盒图(图7),显示了各省份发病率随年份增长的分布情况。地图热图栏可通过导入各省的数据,绘制发病率、死亡率、病死率的地理空间趋势。该系统还可以绘制柱形图、条形图以及雷达图等交互式图形。
-
图6 极图
-
Fig.6 Pole diagram
-
3 讨论
-
目前,国内研究人员较少对传染病开展综合的时空可视化分析,更多集中在某种传染病的时间层次或者空间层次的分析[15-16]。本研究的中国法定传染病数据可视化分析平台是一款数据分析与可视化系统,特色在于有较完善的统计学分析,又提供了数据的自动制表与可视化结果的输出,更对时空数据进行动态化与交互式展示。该应用程序易于使用,使公共卫生研究人员无需复杂的统计或编程技能即可执行复杂的监视分析。它不仅可以作为空间和时空疾病数据的探索性工具,交互式地显示地图、时间序列和各种表格,还可以通过使用R包INLA拟合贝叶斯模型来获得疾病风险估计及其不确定性[17]。另外,对新数据亦可进行处理,并实时给出相关结果。
-
图7 各年发病率的盒图
-
Fig.7 Box plot of incidence rates by year
-
基于网络的法定传染病报告系统自2004年投入运行以来,对传染病的及时发现和控制产生了很大影响。减少疾病,可为整个社会财政和人民健康带来很多好处。之前国内也有一些关于传染病研究的报道,但本研究的独特之处在于整合了中国地区(除港、澳、台)14年来39种法定报告传染病的全部数据集。可以及时了解最新法定报告传染病及呈报个案数目的状况,为公共卫生部门提供法规和计划管理信息。
-
当然,面对许多技术问题,本研究也尝试利用多种方法去解决。如为确保图像的实用性与可适用性,同时更好地呈现传染病数据的时空趋势与人群分布特征,本研究查阅大量相关文献,以寻找广泛使用的图形,并且据此设计几种特色图形,如年龄分层聚类图。同时不断调整相关绘图参数,达到美观大方的效果。
-
拓展动态式与交互式可视化是难点。可视化既可以是静态的,也可以是动态的。动态式可视化可以将时间线更具体地展现出来,设计成员采取层层叠加的方式,选取固定的过渡方式,最终形成动态图的格式。
-
了解传染病的流行趋势,加强传染病的预防和控制,对于公共卫生安全具有重要意义。为了描述疾病在人群、时间、空间上的分布特点,需要通过专业的统计学手段进行验证,也需要通过可视化的手段直观展现疾病分布特点。于是,本研究制作了折线图、年龄分层热图、滑珠图、地区分布热图等来描述2004—2017年的传染病分布特点。
-
本研究的设计分析也存在一定不足之处,相对于分析某一种具体的传染病,宏观分析较粗糙,没有考虑经济因素、气候因素(温度、湿度、风速、颗粒物PM2.5)等)[18]。因此,在未来的版本中,将为疾病映射、群集检测以及自定义数据可视化提供更多选项,从而增加其灵活性。扩展应用程序可以执行的分析类型,以便用户可以在更广泛的模型中进行选择,合并协变量,包括不同类型的时空随机效应,以及在不同形状的聚类中进行选择;另一个扩展是分析点数据的统计方法和可视化。梁祁等[19] 利用移动百分位数法、控制图法对2009—2011年江苏省传染病进行预警,但缺乏预测模型,而本研究系统可以基于时间序列模型等方法对相关疫情进行预测。
-
综上所述,相比其他类似系统,设计的R shiny可视化统计分析系统操作简便,分析方法多样,提供了时间、空间的预测模型,有利于描述传染病的流行特点,便于公共卫生人员研究。
-
参考文献
-
[1] HEESTERBEEK H,ANDERSON R M,ANDREASEN V,et al.Modeling infectious disease dynamics in the com⁃ plex landscape of global health[J].Science,2015,347(6227):aaa4339
-
[2] YANG S,WU J,DING C,et al.Epidemiological features of and changes in incidence of infectious diseases in China in the first decade after the SARS outbreak:an observa⁃ tional trend study[J].Lancet Infect Dis,2017,17(7):716-725
-
[3] 张淼,暴磊,王迪,等.中国 2011—2015 年甲乙类法定报告传染病发病趋势及空间关联性分析[J].中国公共卫生,2018,34(6):786-790
-
[4] 王志心,刘治,刘兆军.基于机器学习的新型冠状病毒(2019⁃nCoV)疫情分析及预测[J].生物医学工程研究,39(1):1-5
-
[5] 金思辰,陶煜波,严宇宇,等.基于多维时空数据可视化的传染病模式分析[J].计算机辅助设计与图形学学报,2019,31(2):241-255
-
[6] 邓强庭,栾嘉,张维,等.基于 R⁃Shiny 的Cox回归模型列线图绘制工具的开发实现[J].现代预防医学,2018,45(24):4417-4422,4434
-
[7] WANG L,WANG Y,YANG G,et al.China information system for disease control and prevention(CISDCP)[EB/OL].[2020 ⁃ 10 ⁃ 08].https://www.nbr.org/wpcontent/up⁃ load/pdfs/programs/CISDCP.pdf
-
[8] 丁勇,吴静,武丹,等.ARIMA 乘积季节模型预测我国戊肝的发病趋势[J].南京医科大学学报(自然科学版),2020,40(11):1725-1729
-
[9] 游楠楠,刘巧,李忠奇,等.基于ARIMA模型的江苏省不同地区肺结核发病趋势的预测[J].南京医科大学学报(自然科学版),2020,40(6):909-914,919
-
[10] 姜庆五,赵飞.空间自相关分析方法在流行病学中的应用[J].中华流行病学杂志,2011,32(6):539-546
-
[11] 饶华祥.基于时空聚集面板模型的肺结核病高危区域探测及影响因素研究[D].太原:山西医科大学,2017
-
[12] 朱斌,刘锦林,毛瑛.中国典型法定报告传染病发病率空间关联性分析[J].中国公共卫生,2018,34(1):4-8
-
[13] 陈思秇,孙立梅,马文军,等.基于贝叶斯时空模型广州市手足口病精细时空尺度下发病影响因素分析[J].中国公共卫生,2020,36(8):1171-1176
-
[14] 敖琳珺,张昱勤,许欢,等.评估气象对广东省登革热时空预测模型的贡献[J].现代预防医学,2020,47(16):2899-2903
-
[15] 胡雪芸,何宗宜,苗静.疾病数据的时空聚集分析及可视化[J].测绘通报,2015(11):106-111
-
[16] 曲玉冰,李仁东,庄大方,等.空间信息技术和大数据技术在登革热风险评估系统中的应用[J].中华疾病控制杂志,2017,21(11):1165-1169,1174
-
[17] LINDGREN F,RUE H.Bayesian spatial modelling with R ⁃INLA[J].J Stat Softw,2015,63(19):1-25
-
[18] 吴北平,杨典,王劲峰,等.利用贝叶斯时空模型分析山东省手足口病时空变化及影响因素[J].地球信息科学学报,2016,18(12):1645-1652
-
[19] 梁祁,吴莹,刘文东,等.2009—2011 年江苏省传染病自动预警系统运行效果分析[J].南京医科大学学报(自然科学版),2012,32(11):1607-1611
-
摘要
目的:设计1种基于R shiny的可视化分析系统,并利用它分析2004—2017年法定传染病的流行情况,从而为防控部门提供参考依据。方法:利用R shiny以及多种R包,基于人群、时间、空间、时空交互4个角度进行可视化描述并搭建可视化系统。结果:本系统绘制了2004—2017年的39种法定传染病的时间空间分布地图,以及疾病聚类、年龄分层热图;同时还对各种法定传染病进行了疾病的时间序列分析、空间自回归分析等。结论:与其他类似系统比较,设计的R shiny可视化统计分析系统操作简便,分析方法多样,提供了预测模型,有利于帮助描述传染病的流行特点,便于公共卫生人员研究。
Abstract
Objective:A visual analysis system based on R Shiny was designed to analyze the prevalence of notifiable infectious diseases from 2004 to 2017,providing reference for disease control and prevention. Methods:Using R shiny and a variety of R packages,distribution was described and the visualized system was built based on four perspectives:population,time,space,and spatial⁃temporal interaction. Results:This system depicted spatial⁃temporal distribution maps of 39 notifiable diseases from 2004 to 2017,as well as disease clustering and age stratified heat maps. Meanwhile,it also performed time series analysis and spatial autoregression analysis on various notifiable infectious diseases. Conclusion:The R shiny visual analysis system has many advantages including simple operation and diverse analysis methods compared to other similar systems. And it is helpful to describe the epidemic characteristics of infectious diseases and facilitate the research of public health.
Keywords
shiny ; infectious diseases ; visualization ; spatial⁃temporal analysis