Page 135 - 南京医科大学学报自然科学版
P. 135

第41卷第7期          徐一铭,袁 梅,邱 琳,等. 能谱CT及碘基图影像组学特征鉴别肺炎性及恶性病变[J].
                  2021年7月                    南京医科大学学报(自然科学版),2021,41(07):1063-1068                      ·1065 ·


                个邻域灰度差分矩阵(neighborhood gray⁃tone differ⁃          建立预测模型,并采用 5 折交叉验证法验证分类器
                encematrix,NGTDM)特征、14 个灰度相关矩阵(gray               的性能。
                level dependence matrix,GLDM)特征]。                 1.3  统计学方法
                1.2.4 数据分析                                            使用 SPSS 21.0 软件进行统计学分析,计量资
                    使用基于Python(3.6.8,https://www.python.org/)     料满足正态性检验则采用 t 检验或校正 t 检验,并
                的开源组学分析平台FeAture Explorer(FAE,v0.2.5,             以均数±标准差(x ± s)进行统计描述,否则采用
                                                           [6]
                https://github.com/salan668/FAE)进行特征分析 。          Mann⁃Whitney U 检 验 ,并 以 中 位 数 及 四 分 位 数
                由于各特征间数量级差异较大,对数据进行Z⁃score                       [M(P25,P75)]进行统计描述,多因素分析使用二元
                标准化处理,计算公式为 Z=(x-x)/std(x),其中 x 为                 Logistic 回归,使用 MedCalc15.2.2 软件绘制受试者
                某特征在所有样本中的均值,std(X)为相应的标准                         特 征(receiver operating characteristic,ROC)曲 线 ,
                差。以 7∶3 拆分训练集和测试集,训练集 86 例(良                      评估模型的诊断效能,以曲线下面积(area under
                性组/恶性组=27/59),测试集37例(良性组/恶性组=                     curve,AUC)作为评判标准。P<0.05 为差异有统
                11/26)。由于恶性组病例较多,采用少数类样本合                         计学意义。
                成过采样技术(synthetic minority over⁃sampling tech⁃
                                                                  2  结 果
                nique,SMOTE)使数据均衡化,采样倍率为 2.19,采
                样后的训练集正负样本量达 1∶1(良性组/恶性组=                         2.1  能谱CT定量参数分析
                59/59)。首先使用皮尔森相关系数法(Pearson cor⁃                      恶性组CT值 70 keV、Zeff、NZeff及两组的D不满足
                relation coefficients,PCC)降维,移除PCC值高于0.86         正态性检验(P < 0.05),故采用 Mann⁃Whitney U 检
                的冗余特征。随后通过递归特征消除(recursive fea⁃                   验。恶性组与炎性组比较,除CT值 70 keV外,CT值 40 keV、
                ture elimination,RFE)进一步筛选特征,最终使用线                λ100⁃70 keV、λ70⁃40 keV、λ100⁃40 keV、IC、NIC、Zeff、NZeff、D 差异
                性判别式分类器(linear discriminant analysis,LDA)         均有统计学意义(表1、图1~2)。
                                                    表1 两组间能谱CT参数比较
                                    Table 1 Comparison of spectral CT parameters between the two groups
                            参数               炎性组                     恶性组                 t/Z值           P值
                   CT值 40 keV (HU,x ± s)  170.72 ± 57.10           139.17 ± 40.05         3.084         0.003
                   λ100⁃70 keV (x ± s)     01.08 ± 0.35            00.84 ± 0.31           3.799        <0.001
                   λ70⁃40 keV (x ± s)      04.15 ± 1.35            03.20 ± 1.22           3.841        <0.001
                   λ100⁃40 keV (x ± s)     02.61 ± 0.85            02.02 ± 0.77           3.836        <0.001
                   IC(mg/mL,x ± s)         02.20 ± 0.72            01.71 ± 0.64           3.786        <0.001
                   NIC(x ± s)              00.23 ± 0.07            00.18 ± 0.07           4.002        <0.001
                   CT值 70 keV [HU,M(P25,P75 )]51.95(32.03,70.32)  51.40(42.64,58.05)     -1.037         0.300
                   Zeff[M(P25,P75 )]     8.95(8.62,9.11)0        8.53(8.35,8.78)0        -3.755        <0.001
                   NZeff[M(P25,P75 )]    0.78(0.74,0.80)0        0.74(0.71,0.78)0        -3.771        <0.001
                   D[cm,M(P25,P75 )]     1.99(1.61,.95)0         3.20(2.25,5.00)0        -2.785         0.005

                2.2  预测模型的建立与诊断效能                                 LengthNonUniformity) 、1 个 GLSZM 特 征 (gl⁃
                    经PCC降冗后剩余91个特征,经RFE特征选择                       szm_SmallAreaEmphasis),各特征在模型中的系数详
                后最终共筛选出 10 个影像组学特征用于建立预测                          见 表 2。 其 中 glcm_Autocorrelation、gldm_SmallDe⁃

                模型,包括 1 个一阶直方图特征(firstorder_Maxi⁃                 pendenceHighGr⁃ayLevelEmphasis、glrlm_RunLength⁃
                mum)、2 个 GLCM 特 征(glcm_Autocorrelation、gl⁃        NonUniformity、firstorder_Maximum 的特征系数为负
                cm_JointAverage)、5 个 GLDM 特征(gldm_SmallDe⁃        值,其余为正值。对预测模型进行 ROC 曲线分析,
                pendenceHighGrayLevelEmphasis、gldm_LargeDepen⁃    以评估其诊断效能(表3)。
                denceLowGrayLevelEmphasis、gldm_LowGrayLevel ⁃     2.3 能谱CT定量参数和预测模型的诊断效能比较
                Emphasis、gldm_HighGrayLevelEmphasis、gldm_De⁃          将具有统计学意义的能谱 CT 参数纳入二元
                pendenceVariance)、1 个 GLRLM 特 征(glrlm_Run⁃        Logsitic回归分析,NIC为独立影响因素(P < 0.001)。
   130   131   132   133   134   135   136   137   138   139   140