Page 135 - 南京医科大学学报自然科学版
P. 135
第41卷第7期 徐一铭,袁 梅,邱 琳,等. 能谱CT及碘基图影像组学特征鉴别肺炎性及恶性病变[J].
2021年7月 南京医科大学学报(自然科学版),2021,41(07):1063-1068 ·1065 ·
个邻域灰度差分矩阵(neighborhood gray⁃tone differ⁃ 建立预测模型,并采用 5 折交叉验证法验证分类器
encematrix,NGTDM)特征、14 个灰度相关矩阵(gray 的性能。
level dependence matrix,GLDM)特征]。 1.3 统计学方法
1.2.4 数据分析 使用 SPSS 21.0 软件进行统计学分析,计量资
使用基于Python(3.6.8,https://www.python.org/) 料满足正态性检验则采用 t 检验或校正 t 检验,并
的开源组学分析平台FeAture Explorer(FAE,v0.2.5, 以均数±标准差(x ± s)进行统计描述,否则采用
[6]
https://github.com/salan668/FAE)进行特征分析 。 Mann⁃Whitney U 检 验 ,并 以 中 位 数 及 四 分 位 数
由于各特征间数量级差异较大,对数据进行Z⁃score [M(P25,P75)]进行统计描述,多因素分析使用二元
标准化处理,计算公式为 Z=(x-x)/std(x),其中 x 为 Logistic 回归,使用 MedCalc15.2.2 软件绘制受试者
某特征在所有样本中的均值,std(X)为相应的标准 特 征(receiver operating characteristic,ROC)曲 线 ,
差。以 7∶3 拆分训练集和测试集,训练集 86 例(良 评估模型的诊断效能,以曲线下面积(area under
性组/恶性组=27/59),测试集37例(良性组/恶性组= curve,AUC)作为评判标准。P<0.05 为差异有统
11/26)。由于恶性组病例较多,采用少数类样本合 计学意义。
成过采样技术(synthetic minority over⁃sampling tech⁃
2 结 果
nique,SMOTE)使数据均衡化,采样倍率为 2.19,采
样后的训练集正负样本量达 1∶1(良性组/恶性组= 2.1 能谱CT定量参数分析
59/59)。首先使用皮尔森相关系数法(Pearson cor⁃ 恶性组CT值 70 keV、Zeff、NZeff及两组的D不满足
relation coefficients,PCC)降维,移除PCC值高于0.86 正态性检验(P < 0.05),故采用 Mann⁃Whitney U 检
的冗余特征。随后通过递归特征消除(recursive fea⁃ 验。恶性组与炎性组比较,除CT值 70 keV外,CT值 40 keV、
ture elimination,RFE)进一步筛选特征,最终使用线 λ100⁃70 keV、λ70⁃40 keV、λ100⁃40 keV、IC、NIC、Zeff、NZeff、D 差异
性判别式分类器(linear discriminant analysis,LDA) 均有统计学意义(表1、图1~2)。
表1 两组间能谱CT参数比较
Table 1 Comparison of spectral CT parameters between the two groups
参数 炎性组 恶性组 t/Z值 P值
CT值 40 keV (HU,x ± s) 170.72 ± 57.10 139.17 ± 40.05 3.084 0.003
λ100⁃70 keV (x ± s) 01.08 ± 0.35 00.84 ± 0.31 3.799 <0.001
λ70⁃40 keV (x ± s) 04.15 ± 1.35 03.20 ± 1.22 3.841 <0.001
λ100⁃40 keV (x ± s) 02.61 ± 0.85 02.02 ± 0.77 3.836 <0.001
IC(mg/mL,x ± s) 02.20 ± 0.72 01.71 ± 0.64 3.786 <0.001
NIC(x ± s) 00.23 ± 0.07 00.18 ± 0.07 4.002 <0.001
CT值 70 keV [HU,M(P25,P75 )]51.95(32.03,70.32) 51.40(42.64,58.05) -1.037 0.300
Zeff[M(P25,P75 )] 8.95(8.62,9.11)0 8.53(8.35,8.78)0 -3.755 <0.001
NZeff[M(P25,P75 )] 0.78(0.74,0.80)0 0.74(0.71,0.78)0 -3.771 <0.001
D[cm,M(P25,P75 )] 1.99(1.61,.95)0 3.20(2.25,5.00)0 -2.785 0.005
2.2 预测模型的建立与诊断效能 LengthNonUniformity) 、1 个 GLSZM 特 征 (gl⁃
经PCC降冗后剩余91个特征,经RFE特征选择 szm_SmallAreaEmphasis),各特征在模型中的系数详
后最终共筛选出 10 个影像组学特征用于建立预测 见 表 2。 其 中 glcm_Autocorrelation、gldm_SmallDe⁃
模型,包括 1 个一阶直方图特征(firstorder_Maxi⁃ pendenceHighGr⁃ayLevelEmphasis、glrlm_RunLength⁃
mum)、2 个 GLCM 特 征(glcm_Autocorrelation、gl⁃ NonUniformity、firstorder_Maximum 的特征系数为负
cm_JointAverage)、5 个 GLDM 特征(gldm_SmallDe⁃ 值,其余为正值。对预测模型进行 ROC 曲线分析,
pendenceHighGrayLevelEmphasis、gldm_LargeDepen⁃ 以评估其诊断效能(表3)。
denceLowGrayLevelEmphasis、gldm_LowGrayLevel ⁃ 2.3 能谱CT定量参数和预测模型的诊断效能比较
Emphasis、gldm_HighGrayLevelEmphasis、gldm_De⁃ 将具有统计学意义的能谱 CT 参数纳入二元
pendenceVariance)、1 个 GLRLM 特 征(glrlm_Run⁃ Logsitic回归分析,NIC为独立影响因素(P < 0.001)。