Page 44 - 南京医科大学自然版
P. 44

第45卷第11期
               ·1574 ·                           南 京    医 科 大 学 学         报                        2025年11月


              评估观察者间一致性,ICC>0.85 表明勾画具有良好
              可重复性。ROI勾画示意图如图1所示。特征提取
              主要通过PyRadiomics工具完成。
                  数据预处理与降维具体步骤如下:①为了消除
              训练数据集中正负样本比例不平衡的影响,通过随
              机重复部分样本的方式进行采样,使得阳性/阴性样
              本的比例达到平衡;②对特征矩阵进行归一化处
              理。由于不同特征的数值差别较大,将不同特征的
              数值缩放到相同的数量级。具体而言,对每个特征
              向量,计算其均值和标准差,然后将该特征向量的
              每个值减去均值,再除以标准差;③在归一化处理后,
              每个特征向量都具有零均值和单位标准差。通过计

              算特征两两之间的皮尔森相关系数(Pearson corre⁃
              lation coefficients,PCC)进行降维。如果某一对特征
              的PCC值>0.990,删除其中一个特征。本研究采用支
              持向量机(support vector machine,SVM)、随机森林                            图1 ROI勾选示意图
                                                                     Figure 1 Schematic diagram of ROI delineation
             (random forest,RF)和逻辑回归(logistic regression,
              LR)3种机器学习的方法进行特征筛选及建模。                            集,114 例作为验证集。训练集患者年龄(62.3±
              1.3  统计学方法                                        10.2)岁(26~84 岁),验证集患者年龄(62.1±9.6)岁
                  以 SPSS 26.0 和 R 4.4.2 等统计学软件进行数据             (38~89岁),男女比例均为约7∶3。训练集中高LNR
              分析,以均数±标准差(x ± s)描述正态分布计量资                        患者 113 例(42.5%),验证集中高 LNR 患者 48 例
              料,行独立样本t检验。采用χ 检验或Fisher精确概                      (42.1%),两组之间的高 LNR 比例无明显差异。两
                                         2
              率法比较计数资料。不符合正态分布的计量资料                             组的 LNR 均不符合正态分布,训练集中位 LNR 为
              以中位数(四分位数)[M(P25,P75)]表示,组间比较                     0.172,验证集中位 LNR 为 0.167。其他研究变量在
              采用 Mann⁃Whitney U 检验(两组)或 Kruskal⁃Wallis          验证集和训练集中差异也均无统计学意义,表明两
              H 检验(多组)。采用 R 软件中的 surv_cutpoint 算法               组具备可比性(表1)。
              计算最佳截断值,以单因素和多因素Logistic回归分                       2.3  模型性能验证
              析逐步向后回归法筛选胃癌LNR的独立预测因素,据                               基于训练组数据选择 SVM、RF 和 LR 3 种机
              此分别构建模型。采用受试者工作特征(receiver                        器学习的方法来建立 LNR 的预测模型。3 种算法
              operating characteristic,ROC)曲 线 及 曲 线 下 面 积      均使用网格搜索和十折交叉验证进行调参调优,
             (area under the curve,AUC)评估各模型术前预测胃               并在选择最佳参数后确定最终模型。基于分析
              癌LNR的效能,P < 0.05为差异有统计学意义。                        筛选的特征变量构建预测模型,模型均具有良好
                                                                的稳定性,各模型均无明显的过拟合或欠拟合。
              2 结 果
                                                                经过 ROC 曲线验证后,在训练集和验证集中,RF
              2.1  LNR分层的生存分析                                   模型的综合性能最佳,在训练集和验证集中 AUC
                  首先使用 R 软件中的 surv_cutpoint 算法计算患               值 均 为 最 高(训 练 集 AUC=0.733,验 证 集 AUC=

              者LNR的最佳截断值为0.21(图2A),根据患者LNR                      0.778,图 3)。在特异度和敏感度方面,RF 模型的
              数值将患者分为高LNR组与低LNR组,使用Kaplan⁃                      敏感度在训练集和验证集中均为最佳(训练集中
              Meier方法的Log⁃rank检验显示,高LNR组与低LNR                   为 0.735,验证集为 0.562),而 SVM 模型的特异度
              组之间的总生存期(overall survival,OS)差异存在统                在训练集和验证集中均为最佳(训练集为0.889,验
              计学意义(P < 0.01,图2B)。                               证集为0.924)。综合考虑,采用RF结果作为影像组

              2.2  患者一般特征                                       学模型评分(radiomic score)依据进一步分析。
                  本研究按照纳排标准共纳入 380 例患者,按照                       2.4 单因素与多因素Logistic回归分析
              7∶3 的比例对患者进行数据分割,266 例作为训练                             将术前患者的基本信息、肿瘤学指标及模型判
   39   40   41   42   43   44   45   46   47   48   49