Page 76 - 南京医科大学自然版
P. 76

第44卷第7期
               ·960 ·                          南   京 医 科       大 学      学 报                        2024年7月


              1.2.3  ROI分割和特征提取                                (support vector machine,SVM)、K 最近邻(K⁃nearest
                  通过东华医疗的图像存储与传输系统获取所                           neighbor,KNN)和逻辑回归(logistic regression,LR),
              有患者的影像数据,采用 3D slicer 软件(版本 5.2.2)                在训练集中对年龄、性别、NIC、λHu、FT3、FT4、TSH和
              对甲状腺结节影像进行逐层分割,由1位具有15年                           Radscore 进行建模,采用 5 倍交叉验证法检验模型
              经验的放射科医师负责完成。为评估勾画的一致                             以降低过拟合,通过比较验证集中受试者工作特征
              性,另 1 位拥有 25 年放射治疗经验的医师随机对                       (receiver operating characteristic,ROC)曲线下面积
              20个良性和20个恶性病灶进行重复勾画,通过组内                         (area under curve,AUC)以选择最优模型。通过
              相关系数(interclass correlation coefficient,ICC)评估    SHAP 特征权重分布图筛选变量构建列线图以直
              确保勾画结果的可重复性。利用 pyradiomisc 插件                     观展示结果,并通过绘制校准曲线和决策曲线图
              执行影像组学特征提取,同时应用低通高斯滤波器                           (decision curve analysis,DCA)评估列线图模型的诊
              对肿瘤纹理特征进行量化表征(过滤内核尺寸:3、                           断性能。
              4),以反映多尺度下的变化。共计从影像中提取出                           1.3  统计学方法
              293 个特征,包含形状特征(original_shape)14 个,一                   采用R软件包(版本4.2.1)和SPSS25.0完成数据
              阶直方图特征(original_firstorder)54个,共生矩阵特              分析。符合正态分布的数据以均数±标准差(x ± s)
              征(gray level cooccurrence matrix,GLCM)72个,灰度      表示并以独立样本 t 检验进行比较,非正态分布数

              依赖矩阵(gray level dependence matrix,GLDM)42         据则用中位数(四分位数)[M(P25,P75)]表示并以
              个,灰度游程长度矩阵(gray level run length matrix,          Mann⁃Whitney U 检验进行比较,对分类资料以频数
              GLRLM)48 个,灰度级大小区域矩阵(gray level size             (百分比)表示并采用卡方检验进行比较。评价所
              zone matrix,GLSZM)48 个,以及邻域灰度差分矩阵                 有 ML 模型的 AUC、准确度(accuracy,ACC)、灵敏度
             (neighborhood gray ⁃ tone difference matrix,NGTDM)  (sensitivity,SEN)、特异度(specificity,SPE)、阳性预
              15个。                                              测值(positive predictive value,PPV)、阴性预测值
              1.2.4  影像组学特征筛选                                  (negative predictive value,NPV)、精确度(precision,
                  将结节以 7∶3 随机拆分训练集与验证集,其中                       PRE)、召回率(recall,REC)和 F1 分数(F1),通过
              训练集100个(良性∶恶性=31∶69),验证集43个(良                     Delong 检验比较各 AUC 之间的差异。采用 R 语言
              性∶恶性=15∶28),鉴于训练集中恶性结节较多,采用                       中的 SHAP 包来解释各个特征的重要性。P < 0.05
              合 成 少 数 类 过 采 样 技 术(synthetic minority over⁃      为差异有统计学意义。
              sampling technique,SMOTE)以倍率 1.816 对训练集
                                                                2 结     果
              良性结节进行过采样,以达到良恶性比例1∶1(良性
              ∶恶性=69∶69)。对提取后的特征数据进行 Z⁃score                    2.1  临床资料比较
              标准化处理以降低特征之间数量级的差异,计算公                                 表 1 概述了训练集(n=100)与验证集(n=43)的
              式:Z⁃score=(X-μ)/o,其中,X为特征值,μ为平均值,                 患者基础资料。两组间在病变比例、性别、年龄、
              o 为标准差。通过独立样本 t 检验与 Mann⁃Whitney                  NIC、λHu、FT3、FT4及TSH等因素上差异均无统计学
              U 检验移除 P≥0.05 的特征,并移除 ICC 值≤0.8 的                 意义(P > 0.05)。
              特征,使用最小绝对收缩和选择算子算法(least                          2.2  特征筛选与影像组学评分建立
              absolute shrinkage and selection operator,LASSO)       经 ICC(>0.8)、独立样本 t 检验与 Mann⁃Whitney
              筛选特征,采用 10 折交叉相互验证选择惩罚系数                          U检验(P < 0.05)共筛选出特征160个。通过LASSO
              λ的最佳值及剩余非 0 的特征。采用以下公式计                           回归及 10 倍交叉验证,发现 6 个与预测良恶性相
              算 每 位 患 者 的 影 像 组 学 评 分(radiomics score,          关的特征(图1A~C),其中包含3个一阶特征和3个

              Radscore),Radscore=Σ(特征数值×特征权重)+b0                纹 理 特 征 。 通 过 公 式 计 算 Radscore,结 果 显 示
             (截断值)。                                             恶 性 组[0.574( -0.015,1.285)]明 显 高 于 良 性

              1.2.5  ML模型                                       组[-0.580(-1.457,0.111)],差异具有统计学意义
                  6 种 ML 分类算法:决策树(decision tree,DT)、           (Z=-4.997,P < 0.001,图1D)。
              随 机 森 林(random forest,RF)、极 端 梯 度 提 升 树           2.3 ML模型建立
             (extreme gradient boosting,XGBoost)、支持向量机               采用DT、RF、XGBoost、SVM、KNN和LR 6种ML
   71   72   73   74   75   76   77   78   79   80   81