Page 44 - 南京医科大学自然版
P. 44
第45卷第11期
·1574 · 南 京 医 科 大 学 学 报 2025年11月
评估观察者间一致性,ICC>0.85 表明勾画具有良好
可重复性。ROI勾画示意图如图1所示。特征提取
主要通过PyRadiomics工具完成。
数据预处理与降维具体步骤如下:①为了消除
训练数据集中正负样本比例不平衡的影响,通过随
机重复部分样本的方式进行采样,使得阳性/阴性样
本的比例达到平衡;②对特征矩阵进行归一化处
理。由于不同特征的数值差别较大,将不同特征的
数值缩放到相同的数量级。具体而言,对每个特征
向量,计算其均值和标准差,然后将该特征向量的
每个值减去均值,再除以标准差;③在归一化处理后,
每个特征向量都具有零均值和单位标准差。通过计
算特征两两之间的皮尔森相关系数(Pearson corre⁃
lation coefficients,PCC)进行降维。如果某一对特征
的PCC值>0.990,删除其中一个特征。本研究采用支
持向量机(support vector machine,SVM)、随机森林 图1 ROI勾选示意图
Figure 1 Schematic diagram of ROI delineation
(random forest,RF)和逻辑回归(logistic regression,
LR)3种机器学习的方法进行特征筛选及建模。 集,114 例作为验证集。训练集患者年龄(62.3±
1.3 统计学方法 10.2)岁(26~84 岁),验证集患者年龄(62.1±9.6)岁
以 SPSS 26.0 和 R 4.4.2 等统计学软件进行数据 (38~89岁),男女比例均为约7∶3。训练集中高LNR
分析,以均数±标准差(x ± s)描述正态分布计量资 患者 113 例(42.5%),验证集中高 LNR 患者 48 例
料,行独立样本t检验。采用χ 检验或Fisher精确概 (42.1%),两组之间的高 LNR 比例无明显差异。两
2
率法比较计数资料。不符合正态分布的计量资料 组的 LNR 均不符合正态分布,训练集中位 LNR 为
以中位数(四分位数)[M(P25,P75)]表示,组间比较 0.172,验证集中位 LNR 为 0.167。其他研究变量在
采用 Mann⁃Whitney U 检验(两组)或 Kruskal⁃Wallis 验证集和训练集中差异也均无统计学意义,表明两
H 检验(多组)。采用 R 软件中的 surv_cutpoint 算法 组具备可比性(表1)。
计算最佳截断值,以单因素和多因素Logistic回归分 2.3 模型性能验证
析逐步向后回归法筛选胃癌LNR的独立预测因素,据 基于训练组数据选择 SVM、RF 和 LR 3 种机
此分别构建模型。采用受试者工作特征(receiver 器学习的方法来建立 LNR 的预测模型。3 种算法
operating characteristic,ROC)曲 线 及 曲 线 下 面 积 均使用网格搜索和十折交叉验证进行调参调优,
(area under the curve,AUC)评估各模型术前预测胃 并在选择最佳参数后确定最终模型。基于分析
癌LNR的效能,P < 0.05为差异有统计学意义。 筛选的特征变量构建预测模型,模型均具有良好
的稳定性,各模型均无明显的过拟合或欠拟合。
2 结 果
经过 ROC 曲线验证后,在训练集和验证集中,RF
2.1 LNR分层的生存分析 模型的综合性能最佳,在训练集和验证集中 AUC
首先使用 R 软件中的 surv_cutpoint 算法计算患 值 均 为 最 高(训 练 集 AUC=0.733,验 证 集 AUC=
者LNR的最佳截断值为0.21(图2A),根据患者LNR 0.778,图 3)。在特异度和敏感度方面,RF 模型的
数值将患者分为高LNR组与低LNR组,使用Kaplan⁃ 敏感度在训练集和验证集中均为最佳(训练集中
Meier方法的Log⁃rank检验显示,高LNR组与低LNR 为 0.735,验证集为 0.562),而 SVM 模型的特异度
组之间的总生存期(overall survival,OS)差异存在统 在训练集和验证集中均为最佳(训练集为0.889,验
计学意义(P < 0.01,图2B)。 证集为0.924)。综合考虑,采用RF结果作为影像组
2.2 患者一般特征 学模型评分(radiomic score)依据进一步分析。
本研究按照纳排标准共纳入 380 例患者,按照 2.4 单因素与多因素Logistic回归分析
7∶3 的比例对患者进行数据分割,266 例作为训练 将术前患者的基本信息、肿瘤学指标及模型判

