Page 75 - 南京医科大学学报自然科学版
P. 75
第42卷第4期 智丽萍,祝 昭,袁 敏. 融合影像、神经认知评价和生物标志等多模态数据预测阿尔兹
2022年4月 海默症进展阶段及转化[J]. 南京医科大学学报(自然科学版),2022,42(4):522-528 ·525 ·
表2 MCI转化AD样本的社会人口学特征 来源数据和使用多来源数据模型的分类预测效
Table 2 Basic characteristics of MCI conversion and non⁃ 果。本文随机划分产生 100 组训练集和验证集,计
conversion samples
算上述各个指标的平均值作为最终结果。采用
MCI未转化 MCI转化 R4.0.0软件分析数据,并用R包(multiROC和pROC)
特征
(n=246) (n=106)
分别实现多分类逻辑回归模型参数的估计及模型
性别[n(%)]
评价指标的计算。
男 100(70.42) 42(29.58)
女 146(69.52) 64(30.48) 2 结 果
婚姻状态[n(%)]
丧偶 25(75.76) 08(24.24) 2.1 疾病状态的预测
结婚 188(67.14) 92(32.86) 将不同来源数据作为预测变量加入 Logistic 回
离异 24(80.00) 6(20.00) 归模型,建立5个不同模型:影像模型(模型1)、生物
未婚 5(100.00) 0(0) 标志模型(模型 2)、影像量表联合模型(模型 3)、影
未知 4(100.00) 0(0) 像生物标志联合模型(模型 4)、影像量表生物标志
年龄(岁,x ± s) 72.59 ± 7.13 72.17 ± 7.22
三联合模型(模型 5)。上述模型均控制了年龄、性
受教育年限(年,x ± s) 16.11 ± 2.77 15.92 ± 3.04
别、婚姻状态、种族和受教育年限这些潜在的混杂
因素。表 3 汇报了基于二分类 Logistic 回归模型对
1.2 方法
疾病进展阶段两两分类的结果,包括上述 5 种不同
对 AD 的 3 个进展阶段进行两两分类预测,即
模型下的分类准确率、查准率、召回率、F1 得分和
AD组vs. NC组、MCI组vs. NC组和MCI组vs. AD组。
AUC 值。对疾病进展状态同时分类预测的结果分
基于脑图像特征、生物标志和神经认知量表评分进
别见表 4。与多分类 Logistic 模型的结果相比,二分
行建模,建立Logistic回归模型如下:
类Logistic具有更好的表现,体现为更高的分类准确
e αj+β′xi
j
pij = P(yi = j|xi )= 2 (1) 率和AUC值。另外,在各个模型下将AD组与NC组
∑e αk+β′xi
k
k=1 区分的准确率和 AUC 值都分别高于将 MCI 组与其
其中j=0,1分别表示两两分类时两个不同的疾 他两组区分的准确率和 AUC 值,这与临床上区分
病进展阶段,即区分 AD 组和 NC 组时 NC 组对应 0, MCI组与正常组或者区分MCI组与AD组比区分AD
AD 组对应 1;区分 MCI 组和 NC 组时 NC 组对应 0, 组与正常组更困难的结论一致。
MCI组对应1;区分MCI组和AD组时MCI组对应0, 对 AD 进展状态进行两两分类预测的结果见
AD组对应1。参数αk和βk是p维截距和斜率向量(这 表 3。基于二分类Logistic 回归模型的结果表明,在
里假设α1=0和β1=0。xi是第i 个样本协变量的取值; 脑图像数据的基础上结合生物标志、神经认知量表
pij是第 i 个人属于第 j 个发展阶段的概率。p 等于建 数据均能不同程度地提高分类的准确率。其中结
立回归模型时加入的协变量的个数。比如p=11,17 合脑图像数据、神经认知量表数据和生物标志数据
分别对应在控制性别、年龄、婚姻状态及受教育年 的三联合模型(模型5)总体表现最好。影像量表生
限4个因素的前提下加入影像数据的7个特征变量 物标志三联合模型的准确率在影像模型 89.42%、
和在影像数据基础上加上2个量表评分及4个生物 67.22%和 77.62%的基础上提高到 100.00%、77.18%
标志的情形。本文进一步对 AD 的 3 个进展阶段进 和89.58%;AUC值则从94.13%、72.24%和79.85%提
行同时分类,此时使用模型(1)的推广形式,即多分 高到100.00%、85.52%和96.39%。
类 Logistic 回归模型。另外在研究 MCI 向 AD 转化 从表 4 可以看出仅使用脑图像数据对疾病状
时,上述模型(1)中 j=0,1 分别表示样本没有/有从 态进行 3 个疾病状态的同时分类预测(影像模型,
MCI转化成AD。 模型 1),总体分类准确率仅为 55.66%。正确分类
本文用交叉验证的方法训练模型和评价模 为 NC 组、MCI 组和 AD 组的比例分别为 45.33%、
型。具体地,从总样本中随机抽取 70%样本作为 68.85%和 38.32%。在脑图像数据的基础上结合生
训练集,余下 30%作为测试集。模型评价指标主 物标志、神经认知量表数据均能提高分类的准确
要包括准确率(accuracy)、召回率(recall)、查准率 率。特别是结合脑图像数据和神经认知量表数据
(precision)、F1 得分和 AUC 值。分别比较只用单一 (影像量表联合模型,模型 3)总体表现最好。影像