Page 75 - 南京医科大学学报自然科学版
P. 75

第42卷第4期          智丽萍,祝 昭,袁 敏. 融合影像、神经认知评价和生物标志等多模态数据预测阿尔兹
                  2022年4月           海默症进展阶段及转化[J]. 南京医科大学学报(自然科学版),2022,42(4):522-528                   ·525 ·


                      表2 MCI转化AD样本的社会人口学特征                        来源数据和使用多来源数据模型的分类预测效
                Table 2  Basic characteristics of MCI conversion and non⁃  果。本文随机划分产生 100 组训练集和验证集,计
                       conversion samples
                                                                  算上述各个指标的平均值作为最终结果。采用
                                      MCI未转化         MCI转化        R4.0.0软件分析数据,并用R包(multiROC和pROC)
                       特征
                                      (n=246)       (n=106)
                                                                  分别实现多分类逻辑回归模型参数的估计及模型
                性别[n(%)]
                                                                  评价指标的计算。
                  男                   100(70.42)    42(29.58)
                  女                   146(69.52)    64(30.48)     2 结    果
                婚姻状态[n(%)]
                  丧偶                   25(75.76)    08(24.24)     2.1  疾病状态的预测
                  结婚                  188(67.14)    92(32.86)         将不同来源数据作为预测变量加入 Logistic 回
                  离异                   24(80.00)     6(20.00)     归模型,建立5个不同模型:影像模型(模型1)、生物
                  未婚                    5(100.00)    0(0)         标志模型(模型 2)、影像量表联合模型(模型 3)、影
                  未知                    4(100.00)    0(0)         像生物标志联合模型(模型 4)、影像量表生物标志
                年龄(岁,x ± s)           72.59 ± 7.13  72.17 ± 7.22
                                                                  三联合模型(模型 5)。上述模型均控制了年龄、性
                受教育年限(年,x ± s)        16.11 ± 2.77  15.92 ± 3.04
                                                                  别、婚姻状态、种族和受教育年限这些潜在的混杂
                                                                  因素。表 3 汇报了基于二分类 Logistic 回归模型对
                1.2  方法
                                                                  疾病进展阶段两两分类的结果,包括上述 5 种不同
                    对 AD 的 3 个进展阶段进行两两分类预测,即
                                                                  模型下的分类准确率、查准率、召回率、F1 得分和
                AD组vs. NC组、MCI组vs. NC组和MCI组vs. AD组。
                                                                  AUC 值。对疾病进展状态同时分类预测的结果分
                基于脑图像特征、生物标志和神经认知量表评分进
                                                                  别见表 4。与多分类 Logistic 模型的结果相比,二分
                行建模,建立Logistic回归模型如下:
                                                                  类Logistic具有更好的表现,体现为更高的分类准确
                                     e αj+β′xi
                                       j
                    pij = P(yi = j|xi )=  2               (1)     率和AUC值。另外,在各个模型下将AD组与NC组
                                   ∑e αk+β′xi
                                        k
                                    k=1                           区分的准确率和 AUC 值都分别高于将 MCI 组与其
                    其中j=0,1分别表示两两分类时两个不同的疾                        他两组区分的准确率和 AUC 值,这与临床上区分
                病进展阶段,即区分 AD 组和 NC 组时 NC 组对应 0,                   MCI组与正常组或者区分MCI组与AD组比区分AD
                AD 组对应 1;区分 MCI 组和 NC 组时 NC 组对应 0,                组与正常组更困难的结论一致。
                MCI组对应1;区分MCI组和AD组时MCI组对应0,                           对 AD 进展状态进行两两分类预测的结果见
                AD组对应1。参数αk和βk是p维截距和斜率向量(这                        表 3。基于二分类Logistic 回归模型的结果表明,在
                里假设α1=0和β1=0。xi是第i 个样本协变量的取值;                     脑图像数据的基础上结合生物标志、神经认知量表
                pij是第 i 个人属于第 j 个发展阶段的概率。p 等于建                    数据均能不同程度地提高分类的准确率。其中结
                立回归模型时加入的协变量的个数。比如p=11,17                         合脑图像数据、神经认知量表数据和生物标志数据
                分别对应在控制性别、年龄、婚姻状态及受教育年                            的三联合模型(模型5)总体表现最好。影像量表生
                限4个因素的前提下加入影像数据的7个特征变量                            物标志三联合模型的准确率在影像模型 89.42%、
                和在影像数据基础上加上2个量表评分及4个生物                            67.22%和 77.62%的基础上提高到 100.00%、77.18%
                标志的情形。本文进一步对 AD 的 3 个进展阶段进                        和89.58%;AUC值则从94.13%、72.24%和79.85%提
                行同时分类,此时使用模型(1)的推广形式,即多分                          高到100.00%、85.52%和96.39%。
                类 Logistic 回归模型。另外在研究 MCI 向 AD 转化                     从表 4 可以看出仅使用脑图像数据对疾病状
                时,上述模型(1)中 j=0,1 分别表示样本没有/有从                      态进行 3 个疾病状态的同时分类预测(影像模型,
                MCI转化成AD。                                         模型 1),总体分类准确率仅为 55.66%。正确分类
                    本文用交叉验证的方法训练模型和评价模                            为 NC 组、MCI 组和 AD 组的比例分别为 45.33%、
                型。具体地,从总样本中随机抽取 70%样本作为                           68.85%和 38.32%。在脑图像数据的基础上结合生
                训练集,余下 30%作为测试集。模型评价指标主                           物标志、神经认知量表数据均能提高分类的准确
                要包括准确率(accuracy)、召回率(recall)、查准率                  率。特别是结合脑图像数据和神经认知量表数据
               (precision)、F1 得分和 AUC 值。分别比较只用单一                 (影像量表联合模型,模型 3)总体表现最好。影像
   70   71   72   73   74   75   76   77   78   79   80