-
阿尔兹海默症(Alzheimer disease,AD)是一种起病隐匿的进行性神经系统疾病,主要在老年群体中发病,俗称老年痴呆症。轻度认知障碍(mild cognitive impairment,MCI)是由正常衰老状态发展为AD的一种早期状态,其症状接近于正常衰老过程,通常被误以为是衰老的表现。研究表明约44%的MCI患者在3年内会转化为AD[1]。全球每年至少会投入1 000亿美元经费用于AD的研究、诊断和治疗,然而迄今为止尚无有效药物和治疗手段能够完全治愈AD。对处于MCI阶段的患者通过加强照顾并及时进行药物和精神治疗,能有效减缓病情的恶化[2-3],因此AD的早期诊断非常重要。尽早诊断MCI可以有效控制延缓疾病的发展,提高患者的生活质量并减轻社会家庭的负担。
-
AD的临床诊断主要基于认知量表评价、神经影像及重要生物标志物[4-6]。神经影像技术是目前诊断AD最直观可靠的手段。然而神经影像解读容易受个人主观影响,且脑室扩大和脑沟增宽也可出现在正常老年人中,并不是痴呆的唯一征象[7]。因此MRI、CT等检查无法检测出早期无特异性影像学改变的患者[8]。文献表明基于脑图像数据对AD的疾病状态或者对MCI转化进行分类仅能达到80%左右的预测准确率[9-11]。基于脑图像数据、神经认知评价及重要的生物标志等多模态数据有望提高AD早期诊断和MCI进展的准确率。Alam等[12] 提出将脑图像数据及简易精神状态检查量表相结合对AD的3个进展阶段进行两两分类,结果表明使用脑图像数据的分段体积特征对正常组和AD组进行二分类时可达到93.85%的分类准确率,使用皮层下分割后的体积特征区分MCI组与正常组和AD组时,检出率分别达到86.54%和75.12%。Gupta等[13] 提出了一种基于机器学习的分类框架,利用氟脱氧葡萄糖正电子发射断层扫描、结构磁共振成像、脑脊液蛋白水平和ApoE基因来区分AD或MCI,结果表明相比于单一模态分类方法,多模态数据联合分类方法能较大幅度地提高分类性能。
-
本文将基于阿尔兹海默症影像计划(Alzheimer’s disease neuroim⁃aging initiative,ADNI)数据,通过整合脑图像数据7个重要的特征、2个常用量表数据以及4个重要的生物标志物测量数据,找到预测AD的疾病状态和转化的最佳组合。结果表明有效整合多来源数据能够提高AD的疾病发展阶段和MCI向AD转化的分类预测的准确率。
-
1 资料和方法
-
1.1 资料
-
本文研究的数据来源于ADNI影像计划(http://adni.loni.usc.edu/)。数据包括基本社会人口学特征 (年龄、性别、种族、婚姻状态、受教育年限等)、神经认知评价量表数据、神经影像数据和重要生物标志数据。本文选择简易精神状态测验(MMSE)和AD认知评估量表(ADAS ⁃Cog13)来衡量样本认知能力。所有的影像数据均通过图像分析工具FreeSurfer进行预处理。从MRI影像数据提取了脑室容积、全脑容积、海马、内嗅皮质、梭状回、颞中回以及脑容量7个脑图像特征。生物测量数据包括Abeta、Tau和p ⁃Tau蛋白及ApoE4基因。对AD疾病状态的预测,我们筛选了有基线数据的783例个体,疾病状态分为正常(NC)、MCI、AD,社会人口学特征和重要特征变量归纳汇总见表1。对于MCI是否向AD转化的分类预测,我们筛选了MCI状态下转化和未转化AD的352例样本,并计算样本首次从MCI状态转化到AD时重要预测变量的变化值,作为预测是否转化的解释变量,社会人口学特征见表2。
-
*:ApoE4⁃0、ApoE4⁃1、ApoE4⁃2分别表示基因型中包含0、1、2个ApoE4等位基因个数的情形。
-
1.2 方法
-
对AD的3个进展阶段进行两两分类预测,即AD组vs.NC组、MCI组vs.NC组和MCI组vs.AD组。基于脑图像特征、生物标志和神经认知量表评分进行建模,建立Logistic回归模型如下:
-
其中j=0,1分别表示两两分类时两个不同的疾病进展阶段,即区分AD组和NC组时NC组对应0, AD组对应1;区分MCI组和NC组时NC组对应0, MCI组对应1;区分MCI组和AD组时MCI组对应0, AD组对应1。参数αk和βk是p维截距和斜率向量(这里假设α1=0和β1=0。xi是第i个样本协变量的取值; pij是第i个人属于第j个发展阶段的概率。p等于建立回归模型时加入的协变量的个数。比如p=11,17分别对应在控制性别、年龄、婚姻状态及受教育年限4个因素的前提下加入影像数据的7个特征变量和在影像数据基础上加上2个量表评分及4个生物标志的情形。本文进一步对AD的3个进展阶段进行同时分类,此时使用模型(1)的推广形式,即多分类Logistic回归模型。另外在研究MCI向AD转化时,上述模型(1)中j=0,1分别表示样本没有/有从MCI转化成AD。
-
本文用交叉验证的方法训练模型和评价模型。具体地,从总样本中随机抽取70%样本作为训练集,余下30%作为测试集。模型评价指标主要包括准确率(accuracy)、召回率(recall)、查准率 (precision)、F1得分和AUC值。分别比较只用单一来源数据和使用多来源数据模型的分类预测效果。本文随机划分产生100组训练集和验证集,计算上述各个指标的平均值作为最终结果。采用R4.0.0软件分析数据,并用R包(multiROC和pROC) 分别实现多分类逻辑回归模型参数的估计及模型评价指标的计算。
-
2 结果
-
2.1 疾病状态的预测
-
将不同来源数据作为预测变量加入Logistic回归模型,建立5个不同模型:影像模型(模型1)、生物标志模型(模型2)、影像量表联合模型(模型3)、影像生物标志联合模型(模型4)、影像量表生物标志三联合模型(模型5)。上述模型均控制了年龄、性别、婚姻状态、种族和受教育年限这些潜在的混杂因素。表3汇报了基于二分类Logistic回归模型对疾病进展阶段两两分类的结果,包括上述5种不同模型下的分类准确率、查准率、召回率、F1得分和AUC值。对疾病进展状态同时分类预测的结果分别见表4。与多分类Logistic模型的结果相比,二分类Logistic具有更好的表现,体现为更高的分类准确率和AUC值。另外,在各个模型下将AD组与NC组区分的准确率和AUC值都分别高于将MCI组与其他两组区分的准确率和AUC值,这与临床上区分MCI组与正常组或者区分MCI组与AD组比区分AD组与正常组更困难的结论一致。
-
对AD进展状态进行两两分类预测的结果见表3。基于二分类Logistic回归模型的结果表明,在脑图像数据的基础上结合生物标志、神经认知量表数据均能不同程度地提高分类的准确率。其中结合脑图像数据、神经认知量表数据和生物标志数据的三联合模型(模型5)总体表现最好。影像量表生物标志三联合模型的准确率在影像模型89.42%、 67.22%和77.62%的基础上提高到100.00%、77.18%和89.58%;AUC值则从94.13%、72.24%和79.85%提高到100.00%、85.52%和96.39%。
-
从表4可以看出仅使用脑图像数据对疾病状态进行3个疾病状态的同时分类预测(影像模型,模型1),总体分类准确率仅为55.66%。正确分类为NC组、MCI组和AD组的比例分别为45.33%、 68.85%和38.32%。在脑图像数据的基础上结合生物标志、神经认知量表数据均能提高分类的准确率。特别是结合脑图像数据和神经认知量表数据 (影像量表联合模型,模型3)总体表现最好。影像量表联合模型的总体准确率比影像模型提高了16.87%;正确分类为NC组、MCI组和AD组的比例分别提高了24.31%、5.27%和35.30%;查准率、召回率和综合指标F1得分分别提高了21.63%、 18.10%和14.22%;AUC分别提高了11.14%、 21.80%和12.89%,特别是区分AD与其他两类的AUC达到了97.58%。表4中不同模型下各个评价指标表明基于多分类Logistic回归模型,增加传统的神经认知量表数据对分类效果有很大提升,但增加生物标志测量数据对于提高分类准确率的作用有限。另外,表4影像量表生物标志三联合模型的结果表明,并非将所有来源的数据加入AD疾病发展状态的分类预测中会得到最好的分类效果,变量之间存在的共线性可能会降低多分类Logistic的评价效果。
-
2.2 MCI疾病状态转化成AD的分类预测
-
本文从ADNI数据中筛选了MCI转化成AD (246例)和MCI未转化成AD(106例)共计352例样本,基本社会人口学特征如表2。我们使用表1中相同的社会人口学特征和生物标志ApoE4基因型作为不随时间变化的协变量。图像特征相关的7个变量(脑室容积、全脑容积、海马、内嗅皮质、梭状回、颞中回和脑容量)、其他3个生物标志(Abeta、Tau、 p⁃Tau);MMSE和ADAS⁃Cog13两个量表得分共12个变量则计算个体从MCI状态首次转化到AD的变化量作为协变量加入到Logistic回归模型中。
-
本文随机产生100个数据集,每一个数据集中随机抽取70%样本作为训练集,余下30%样本作为预测集,计算准确率、召回率、查准率、F1得分和AUC值作为评价模型的准则。表5为使用不同来源数据模型分类预测的指标100次数据随机划分结果的平均值。从表5可以看出,整合脑图像数据、神经认知量表以及生物标志数据能提高转化状态分类预测的准确率。在5个模型中脑图像数据结合神经认知量表数据能最大限度地提高准确率,从86.69%提高到了90%以上。生物标志数据似乎对模型的分类性能没有提升作用。整合3个来源数据对于转化状态进行分类得到最高的AUC值94.06%(使用脑图像特征数据的AUC为89.21%)。
-
3 讨论
-
AD是常见的痴呆之一,一般在老年人群中发病。据世界卫生组织 (WHO) 发布的最新统计,至2050年,全球60岁以上人口比例将从2019年的约11%增至22%[1],全球AD患者数将由目前的5 000万增加到1.52亿[2]。根据2020年中国第七次全国人口普查结果,我国60岁及以上人口为26 402万人,占总人口数的18.70%(其中65岁及以上人口为19 064万人,占13.50%)。与2010年相比,60岁及以上人口的比重上升5.44%[14]。截至2020年,我国AD人数已超过1 000万,居世界首位,并且每年以30万以上新发病例快速增长,已成为影响我国社会经济发展的重大公共卫生健康问题和社会问题[15]。
-
根据最新痴呆数据统计,AD的发病率和死亡率均在逐年增加,严重影响了患者及其家属的生活。目前仍然没有完全治愈AD的药物和方案,但是通过对患者精心照顾,锻炼其认知能力可以延缓疾病的发生发展进程[16-18]。如果MCI患者得到有效的治疗和照顾,也可能完全康复。对于医院来说,经验丰富的神经影像科医生时间和精力均有限,并且基层医疗机构专业人才匮乏,所以亟需一种简单高效且正确率高的辅助诊断方法帮助医生对AD患者做出全面诊断[19]。随着国家医疗技术的发展和进步,多种现代数字化医学图像采集设备在医院的普及,医院日常获取的影像数据巨大,结合计算机设备和机器学习技术,有望挖掘出一些潜在有用的信息,帮助医生更好地进行疾病的诊断。
-
本文基于多来源多模态数据分别对AD的发展阶段和MCI患者是否会向痴呆转化建立回归模型。本文建立二分类Logistic回归对疾病发展阶段进行两两分类预测的同时也采用了多分类Logistic回归模型对疾病发展的3个阶段同时分类。对ADNI数据分析的结果显示,两两分类预测的效果比同时分类的效果好。临床医生诊断AD时通常既要参考多种神经影像检查结果,也要参考神经学检查结果。本文将MRI影像与临床检查数据相融合,通过建立Logistic回归模型,提高了仅依赖于影像数据预测疾病状态的准确率。在公开数据集ADNI上通过大量实验表明,基于整合脑图像数据和传统神经认知量表等多模态数据对AD的诊断效果表现较好,在AD的早发现中具有一定优势。本文在影像数据分析中融入临床量表及重要生物标志物测量信息进行综合评判,为AD的早期辅助诊断研究提供新思路和新算法。
-
参考文献
-
[1] ALZHEIMER’S ASSOCIATION.2021 Alzheimer’s dis⁃ ease facts and figures[J].Alzheimers Dement,2021,17(3):327-406
-
[2] PORSTEINSSON A P,ISAACSON R S,KNOX S,et al.Diagnosis of early Alzheimer’s disease:clinical practice in 2021[J].J Prev Alzheimers Dis,2021,8(3):371-386
-
[3] 陈玖.基于神经影像特征的遗忘型轻度认知损害患者痴呆转化模型构建与临床应用研究[D].南京:东南大学,2017
-
[4] 张筱,袁欣瑞,朱瑞,等.简易智能精神状态量表和蒙特利尔认知评估量表差值在老年期痴呆鉴别诊断中的价值[J].中华老年医学杂志,2015,34(5):494-497
-
[5] LOVESTONE S,FRANCIS P,KLOSZEWSKA I,et al.AddNeuroMed⁃the European collaboration for the discov⁃ ery of novel biomarkers for Alzheimer′s disease[J].Ann N Y Acad Sci,2009,1180:36-46
-
[6] FORMAN S D,COHEN J D,FITZGERALD M,et al.Im⁃ proved assessment of significant activation in functional magnetic resonance imaging(fMRI):use of a cluster⁃size threshold[J].Magn Reson Med,1995,33(5):636-647
-
[7] PERRIN R J,FAGAN A M,HOLTZMAN D M.Multimod⁃al techniques for diagnosis and prognosis of Alzheimer’s disease[J].Nature,2009,461(7266):916-922
-
[8] BAILEY D L,PICHLER B J,GÜCKEL B,et al.Com⁃ bined PET/MRI:multi ⁃ modality multi ⁃ parametric imag⁃ ing is here[J].Mol Imaging Biol,2015,17(5):595-608
-
[9] RIEDERER I,BOHN K P,PREIBISCH C,et al.Alzheim⁃ er disease and mild cognitive impairment:integrated pulsed arterial spin⁃labeling MRI and 18F⁃FDG PET[J].Radiology,2018,288(1):198-206
-
[10] TOSHKHUJAEV S,LEE K H,CHOI K Y,et al.Classifi⁃ cation of Alzheimer’s disease and mild cognitive impair⁃ ment based on cortical and subcortical features from MRI T1 brain images utilizing four different types of datasets [J].J Healthc Eng,2020,2020:3743171
-
[11] WEE C Y,YAP P T,SHEN D,et al.Prediction of Al⁃ zheimer’s disease and mild cognitive impairment using cortical morphological patterns[J].Hum Brain Mapp,2013,34(12):3411-3425
-
[12] ALAM S,KWON G R,Alzheimer’s Disease Neuroimag⁃ ing Initiative.Alzheimer disease classification usingKPCA,LDA,and multi ⁃ kernel learning SVM[J].Int J Imaging Syst Technol,2017,27(2):133-143
-
[13] GUPTA Y,LAMA R K,KWON G R,et al.Prediction and classification of Alzheimer’s disease based on combined features from apolipoprotein ⁃ E genotype,cerebrospinal fluid,MR,and FDG ⁃ PET imaging biomarkers[J].Front Comput Neurosci,2019,13:72
-
[14] 王广州.新中国70年:人口年龄结构变化与老龄化发展趋势[J].中国人口科学,2019,33(3):2-15
-
[15] 庞国防,胡才友,杨泽.中国人口老龄化趋势与对策 [J].中国老年保健医学,2021,19(1):3-5
-
[16] ZHANG Y,LI Y,MA L.Recent advances in research on Alzheimer’s disease in China[J].J Clin Neurosci,2020,81:43-46
-
[17] 葛高琪,王晶晶,陶克,等.老年痴呆患者行为精神症状对照顾者负担的现状[J].中国老年学杂志,2017,37(4):1015-1017
-
[18] 刘晨红,李伊傲,刘琪,等.老年痴呆患者家庭照顾者负担及干预研究现状分析[J].现代预防医学,2019,46(2):281-284
-
[19] JIA L,QUAN M,FU Y,et al.Dementia in China:epide⁃ miology,clinical management,and research advances[J].Lancet Neurol,2020,19(1):81-92
-
摘要
目的:研究如何整合并优化影像、神经认知评价和生物标志测量等多来源多模态数据以提高阿尔兹海默症 (Alzheimer disease,AD)发展阶段和转化的分类预测准确率。方法:基于阿尔兹海默症影像计划(Alzheimer’s disease neuroim⁃ aging initiative,ADNI)2004—2018年4个阶段的样本数据,包括从核磁共振成像(magnetic resonance imaging,MRI)影像数据提取的脑图像特征数据、神经认知量表(简易精神状态测量量表和 ADAS⁃Cog13 量表)数据、生物标志测量数据(Abeta、Tau 和 p⁃Tau蛋白及ApoE4基因型)。基于783个样本的基线数据建立二分类和多分类Logistic回归模型用于疾病发展阶段的两两和同时分类预测。基于具有轻度认知障碍(mild cognitive impairment,MCI)状态的352个样本的纵向数据建立二分类Logistic回归模型并用于转化状态的分类预测。将脑图像特征变量、量表数据和生物标志加入到基准模型中,通过交叉验证方法随机划分数据集,并计算准确率、查准率、召回率、F1得分和ROC曲线下面积(area under curve,AUC)等指标进行综合比较,得到最优多模态组合的分类预测模型。结果:对于AD发展阶段的分类,结合脑图像特征数据、量表数据和生物标志数据建立二分类 Logistic 模型表现最佳,区分 AD 组和正常组、MCI 组和正常组以及 AD 组和 MCI 组的准确率分别达到了 100.00%、77.18%和 89.58%;AUC值分别为100.00%、85.52%和96.39%,比仅用脑图像数据进行进展阶段的分类预测有显著提高。对于MCI是否转化的分类预测,脑图像特征数据结合量表数据和生物标志能最大限度地提高准确率,从86.69%提高到90%以上;相应的 AUC值从89.21%提高到94.06%。结论:结合多来源数据能提高AD疾病进展阶段和转化的分类预测准确率,为临床诊断AD 所处的发展阶段和转化提供理论上的支持。
Abstract
Objective:To determine whether the combination of neurocognitive assessment and key biomarker data can improve the accuracy of using MRI image data to predict Alzheimer disease(AD)status and conversion. Methods:Data were collected from the Alzheimer’s Disease Neuroimaging Initiative(ADNI) during 2004—2018. Samples with complete MRI image data,cognitive assessment data and biological measures were screened from the raw data. Seven brain volumetric features including ventricular, hippocampus,whole brain,entorhinal cortex,fusiform gyrus,middle temporal gyrus,and intracerebral volumes were extracted from MRI by toolbox FreeSurfer. Cognitive assessment scale included the MMSE and ADAS ⁃ Cog13 scale. Biological measurement data included four biomarkers,i.e.,Abeta peptide,Tau protein,p ⁃ Tau protein and ApoE4 genotype. Based on the baseline data of 783 samples,logistic regression model was established for classification of disease development stages. Based on the longitudinal data of 352 samples with MCI status,a binary logistic regression was established for distinguishing converted patients from non ⁃ converted patients. We integrated cognitive data,and biomarkers with the brain image data,randomly divided the data set through a cross ⁃ validation method,and calculated accuracy,recall,precision,F1 score,and the area under the ROC curve. Results:For the classification of AD development stage,combining brain image data,cognitive data and biological measures achieved accuracy rates of 100.00%(AD vs. Normal),77.18%(MCI vs. Normal)and 89.58%(AD vs. MCI);the areas under the ROC curves are 100.00%(AD vs. Normal),85.52%(MCI vs. Normal)and 96.39%(AD vs. MCI)respectively;the AUCs for distinguishing Normal,MCI,and AD from the other two categories are 88.30% ,81.00% and 97.26% respectively,which are significantly higher than the classification performance using only brain image data. For classification of MCI conversion,the brain image data combined with the cognitive data can maximize the accuracy rate,from 86.69% to more than 90%;the corresponding AUC increased from 89.21%,which only use the brain image data to 94.06%. Conclusion:Combining data from multiple sources can improve the classification and prediction accuracy of AD status and conversion,thus provide theoretical support for clinical practice in early diagnosis of the AD.
Keywords
Alzheimer disease ; MRI brain image ; cognitive assessment scale ; biomarker