Page 19 - 《南京医科大学学报》自然科学版2026年第2期

P. 19

第46卷第2期杨玥，葛愿，李明辉，等. 基于机器学习的心脏术后衰弱预测模型的构建与验证［J］.
2026年2月南京医科大学学报（自然科学版），2026，46（2）：173-180，187 ·175 ·

白水平。布的计量资料采用均数±标准差（x ± s）表示，组间比
1.2.2 患者术后衰弱的评估与分组较采用独立样本t检验；偏态分布数据以中位数（四
依据《老年心血管疾病合并衰弱评估与管理中分位数）［M（P25，P75）］表示，组间比较采用 Mann⁃
国专家共识》推荐，采用 FRAIL 量表评估心脏疾病 Whitney U 检验；计数资料以频数（百分比）［n（%）］
患者的衰弱状态。该量表耗时较短、客观且重复性描述，组间比较采用χ 检验。使用“randomForest”
2
好，目前在许多心血管疾病的研究中表现出优异的 “glmnet”和“xgboostR”等 R 包进行机器学习分析；
评估性能［12-14］。FRAIL量表共包含5个条目，如果患 “pROC”包计算 ROC 值，“ggplot2”包绘制图片；
者有 3 个及以上的回答为“是”，则可诊断为衰弱。 “rms”包进行预测模型验证和列线图构建及验证；
评估选择在术后 1 个月左右，患者门诊复查时进 “ggDCA”包分析临床决策曲线。双侧检验，P < 0.05
行。该时间点的选择基于以下考量：①避开了住院为差异有统计学意义。
期间急性手术应激、疼痛以及麻醉药物影响的急性
2 结果
期，能更真实地反映患者中期的恢复趋势；②此时
患者常规进行随访，避免电话随访带来不准确性； 2.1 患者基线特征
③术后1~3个月是评估心脏手术后中期并发症与功训练集及内部验证集纳入235例患者，按照7∶3
能恢复的关键时间窗口，有学者也采用术后1个月设的比例随机分为训练集165例，验证集70例。训练
为评估衰弱的第一个正式随访点。FRAIL评分≥3分集与验证集的基线特征比较显示，各组间变量分布
［15］
者纳入衰弱组，FRAIL评分<3分者纳入非衰弱组。均衡，无显著差异（表1）。在训练集中，44例患者发
1.2.3 基于机器学习的变量筛选生衰弱，发生率为26.7%。单因素分析显示，衰弱组
采用最小绝对收缩和选择算子（least absolute 与非衰弱组在年龄、糖尿病、LVDd、LVEF 及白蛋白
shrinkage and selection operator，LASSO）、随机森林水平上差异均有统计学意义（P均 < 0.05，表2）。
（random forest，RF）以及极限梯度提升（extreme 2.2 机器学习结果
gradient boosting，XGBoost）3种机器学习算法筛选共 LASSO模型（AUC为0.795，95%CI：0.698~0.892）
同预测因子。所有模型均使用 10 折交叉验证进行在λ.1se 下选择了 7 个非零系数变量（图 2A~D），
评估。RF模型使用500棵决策树训练，通过平均下 XGBoost 模型（AUC 为 0.839，95%CI：0.757~0.921，
降Gini指数对变量重要性进行排序，保留前10个最图 2E~G）以及 RF 模型（AUC=0.838，95%CI=0.756~
重要变量。对于LASSO回归，通过二项式惩罚将非 0.920，图2H~J）则分别根据变量重要性排序选取前
信息变量压缩至零系数，使用最小准则和 1 个标准 10个特征。3种机器学习方法共同筛选出4个关键
误规则选择最优正则化参数；将λ.1se准则下系数非变量，包括年龄、术前白蛋白、术前 LVEF 和 LVDd
零的变量视为显著预测因子。在 XGBoost 中，计算值，其方差膨胀系数（variance inflation factor，VIF）均
沙普利加和解释（Shapley additive explanation，远小于 4，表明这些预测因子之间不存在显著的多
SHAP）以量化各变量对模型预测的贡献度，并选择重共线性，确保了模型估计的稳定性和结果的可靠
按增益排序的前 10 个变量。最终通过韦恩图可视性（图2K）。
化3种方法确定共同变量。 2.3 列线图构建与验证
1.2.4 列线图构建将上述 4 个因子纳入 Logistic 回归，构建列线
基于 3 种机器学习方法确定的共同变量，构建图模型。每个因素都可以查询到 1 个分数，通过将
Logistic回归模型以开发列线图，作为个体化风险预 4 个分数相加并在总评分轴上定位总和来计算

测的可视化工具。采用受试者工作特征（receiver 总分和（图 3）。该列线图在训练集和内部验证
operating characteristic，ROC）曲线及其曲线下面积数据集中均表现出稳健的预测性能。训练集
（area under the curve，AUC）评估模型的区分度、校 AUC 为 0.846（95%CI：0.763~0.928），最大约登指

准曲线评估模型的一致性、决策曲线分析（decision 数对应的临界值为 0.247，校准曲线 Brier 值为
curve analysis，DCA）评估该模型的临床价值，并在 0.144。将训练集模型置于内部验证集中进行验证，
内部验证集以及时间分层验证集中予以验证。内部验证集 AUC 为 0.821（95%CI：0.701~0.940），最

1.3 统计学方法大约登指数对应的临界值为 0.315，校准曲线 Brier
使用 RStudio 4.4.2 进行统计分析，符合正态分值为 0.131。

14 15 16 17 18 19 20 21 22 23 24