Page 85 - 南京医科大学学报自然科学版
P. 85

第44卷第3期         刘志鹏,降建新,吴琪炜,等. 基于多序列MRI影像组学与深度迁移学习特征的脑胶质瘤分级
                  2024年3月                预测研究[J]. 南京医科大学学报(自然科学版),2024,44(3):372-379                    ·375 ·


                ResNet50 作为本研究迁移学习模型的基本模型,它                       基于支持向量机的递归特征消除(support vector
                集成了残差学习,以避免深度网络中的梯度分散和准                           machine⁃recursive feature elimination,SVM⁃RFE)、基
                确性降低,提高网络效率、准确性和执行速度。最终                           于随机森林的递归特征消除(random forest recursive
                在最后一层全连接层提取DTL特征。以上过程均在                           feature elimination,RF⁃RFE)3 种方法筛选出影响力
                Python 3.7平台上使用Tensorflow深度学习库完成。                 排名前10的特征子集。
                1.2.2 特征选择                                        1.2.3 特征融合
                    将得到的所有特征进行 Z⁃score 归一化处理。                         特征融合技术是使用多个给定的特征集生成
                为防止过拟合,本研究采用多步特征选择方法选择                            一个新的组合特征集,不同特征子集之间优点互
                最佳特征。第一步,采用Spearman相关系数法对所                        补,有利于后续的分类任务。首先,对每个序列的
                有影像组学特征进行排序分析。采用Spearman相关                        HCR 和 DTL 特征进行融合,生成 DLR 特征集,故后
                检验考察个体特征之间的内在线性相关。相关系数                            续每个序列的研究为 HCR、DTL 和 DLR 3 种特征

                绝对值越大,相关性越强,对于线性相关系数≥0.95                         集。其次,由于不同序列的影像数据捕获的重点信
                的特征只保留一个。第二步,分别采用最大相关最                            息不同,将上述4种序列的特征子集进行融合,融合
                小冗余(max⁃relevance and min⁃redundancy,mRMR)、       方式分别为:随机2种序列融合、随机3种序列融合



                                                                               T1+T2+T1c+Flair
                               T1+T1c     T2+Flair   T1+Flair
                                                                         T1+T2+T1c     T2+T1c+Flair



                           T1        T2        T1c       Flair      T1        T2         T1c       Flair




                              T1+T2      T2+T1c     T1c+Flair
                                                                       T1+T1c+Flair        T1+T2+Flair
                                                        图3 特征融合过程
                                                Figure 3  The fusion process of features


                以及 4 种序列全部融合。特征融合过程如图 3 所                         上实现。采用 Spearman 相关系数法对所有影像组
                示,最终有15种影像序列融合方式。                                 学特征进行排序及相关性分析。分别采用 mRMR、
                1.2.4 分类模型构建                                      SVM⁃RFE、RF⁃RFE 方法筛选出影响力排名前 10 的
                    在特征选择和融合后,分别使用每个特征子集                          特征子集。使用受试者工作特征曲线下面积(area
                构建 ML 分类模型,本研究使用了支持向量机(sup⁃                       under curve,AUC)评分用于测试预测模型的性能。
                port vector machine,SVM)、逻辑回归(logistic regres⁃    在模型构建过程中计算约登指数(Youden index,
                sion,LR)、随机森林(random forest,RF)、XGBoost、决         YI)评价诊断精度,并将其整合到准确度(accuracy,
                策 树(decision tree,DT)、K 近 邻(K ⁃ nearest neigh⁃    ACC)、灵敏度(sensitivity,SEN)和特异度(specifici⁃
                bors,KNN)、朴素贝叶斯(naive bayes,NB)这 7 种常             ty,SPE)的计算中来进一步评估模型功效。使用
                见的 ML 模型,模型由 Python Scikit⁃learn 实现,并对            Python 中的SHAP 包来显示每个特征重要性之间的
                其在脑胶质瘤分级预测中的性能进行比较。为了                             关系。对最佳模型特征重要性进行量化以及个体
                防止过拟合,采用五折交叉验证来评估模型的分类                            特征影响进行归因分析。
                性能和泛化能力,将其中 4 份作为训练集,1 份作为
                                                                  2  结 果
                验证集。在进行模型训练过程中,采用网格搜索法
                选取最佳的超参数值。                                        2.1 特征选择和特征融合

                1.3  统计学方法                                            从T1、T2、T1c、Flair序列分别提取1 321个HCR
                    本研究均在Python 3.7(https://www. python.org)      特征和1 000个DTL特征。经过Spearman相关系数
   80   81   82   83   84   85   86   87   88   89   90