Page 44 - 南京医科大学自然版

P. 44

第45卷第11期
·1574 · 南京医科大学学报 2025年11月

评估观察者间一致性，ICC>0.85 表明勾画具有良好
可重复性。ROI勾画示意图如图1所示。特征提取
主要通过PyRadiomics工具完成。
数据预处理与降维具体步骤如下：①为了消除
训练数据集中正负样本比例不平衡的影响，通过随
机重复部分样本的方式进行采样，使得阳性/阴性样
本的比例达到平衡；②对特征矩阵进行归一化处
理。由于不同特征的数值差别较大，将不同特征的
数值缩放到相同的数量级。具体而言，对每个特征
向量，计算其均值和标准差，然后将该特征向量的
每个值减去均值，再除以标准差；③在归一化处理后，
每个特征向量都具有零均值和单位标准差。通过计

算特征两两之间的皮尔森相关系数（Pearson corre⁃
lation coefficients，PCC）进行降维。如果某一对特征
的PCC值>0.990，删除其中一个特征。本研究采用支
持向量机（support vector machine，SVM）、随机森林图1 ROI勾选示意图
Figure 1 Schematic diagram of ROI delineation
（random forest，RF）和逻辑回归（logistic regression，
LR）3种机器学习的方法进行特征筛选及建模。集，114 例作为验证集。训练集患者年龄（62.3±
1.3 统计学方法 10.2）岁（26~84 岁），验证集患者年龄（62.1±9.6）岁
以 SPSS 26.0 和 R 4.4.2 等统计学软件进行数据（38~89岁），男女比例均为约7∶3。训练集中高LNR
分析，以均数±标准差（x ± s）描述正态分布计量资患者 113 例（42.5%），验证集中高 LNR 患者 48 例
料，行独立样本t检验。采用χ 检验或Fisher精确概（42.1%），两组之间的高 LNR 比例无明显差异。两
2
率法比较计数资料。不符合正态分布的计量资料组的 LNR 均不符合正态分布，训练集中位 LNR 为
以中位数（四分位数）［M（P25，P75）］表示，组间比较 0.172，验证集中位 LNR 为 0.167。其他研究变量在
采用 Mann⁃Whitney U 检验（两组）或 Kruskal⁃Wallis 验证集和训练集中差异也均无统计学意义，表明两
H 检验（多组）。采用 R 软件中的 surv_cutpoint 算法组具备可比性（表1）。
计算最佳截断值，以单因素和多因素Logistic回归分 2.3 模型性能验证
析逐步向后回归法筛选胃癌LNR的独立预测因素，据基于训练组数据选择 SVM、RF 和 LR 3 种机
此分别构建模型。采用受试者工作特征（receiver 器学习的方法来建立 LNR 的预测模型。3 种算法
operating characteristic，ROC）曲线及曲线下面积均使用网格搜索和十折交叉验证进行调参调优，
（area under the curve，AUC）评估各模型术前预测胃并在选择最佳参数后确定最终模型。基于分析
癌LNR的效能，P < 0.05为差异有统计学意义。筛选的特征变量构建预测模型，模型均具有良好
的稳定性，各模型均无明显的过拟合或欠拟合。
2 结果
经过 ROC 曲线验证后，在训练集和验证集中，RF
2.1 LNR分层的生存分析模型的综合性能最佳，在训练集和验证集中 AUC
首先使用 R 软件中的 surv_cutpoint 算法计算患值均为最高（训练集 AUC=0.733，验证集 AUC=

者LNR的最佳截断值为0.21（图2A），根据患者LNR 0.778，图 3）。在特异度和敏感度方面，RF 模型的
数值将患者分为高LNR组与低LNR组，使用Kaplan⁃ 敏感度在训练集和验证集中均为最佳（训练集中
Meier方法的Log⁃rank检验显示，高LNR组与低LNR 为 0.735，验证集为 0.562），而 SVM 模型的特异度
组之间的总生存期（overall survival，OS）差异存在统在训练集和验证集中均为最佳（训练集为0.889，验
计学意义（P < 0.01，图2B）。证集为0.924）。综合考虑，采用RF结果作为影像组

2.2 患者一般特征学模型评分（radiomic score）依据进一步分析。
本研究按照纳排标准共纳入 380 例患者，按照 2.4 单因素与多因素Logistic回归分析
7∶3 的比例对患者进行数据分割，266 例作为训练将术前患者的基本信息、肿瘤学指标及模型判

39 40 41 42 43 44 45 46 47 48 49