Page 86 - 南京医科大学自然版
P. 86
第44卷第5期
·674 · 南 京 医 科 大 学 学 报 2024年5月
corpuscular volume,MCV)、红细胞压积(hematocrit, 2.2 特征变量筛选及模型构建
HCT)、红细胞计数(red blood count,RBC)、凝血酶 经 LASSO 回归分析后,共筛选了 16 个特征(图
原时间(prothrombin time,PT)、部分凝血活酶时间 1),包括年龄、卒中类型、吸烟史、饮酒史、既往卒中
(activated partial thromboplastin time,APTT)、纤维蛋 史、Brunnstrom 分期(上肢)、Brunnstrom 分期(下
白原(fibrinogen,FIB)、国际标准化比值(international 肢)、抗血小板聚集药服用史、HDL⁃C、PCT、HGB、D⁃
normalized ratio,INR)、凝血酶时间(thrombin time, 二聚体、RDW⁃CV、ALB、RBC、INR。基于上述 16 个
TT)、D⁃二聚体(D⁃dimer)、下肢深静脉血栓形成等 特征构建 5 个 ML 模型。对 ROC 曲线、AUC、PR 曲
25个指标。 线、PRAUC、准确率、灵敏度和特异度进行模型评估
1.2.2 模型构建与评估 后发现 RF 模型为最优模型(图 2),其具有最大的
利用最低绝对收缩和选择算子(least absolute AUC 值(0.74),PRAUC(0.64),准确性(0.97),敏感
shrink age and selection operator,LASSO)回归进行特 度(0.75)和特异度(0.97)(表2)。因此,本研究最终
征降维筛选。基于 K 近邻模型(K⁃nearest neighbor, 选择了RF模型进行下一步的分析和应用。
KNN)、支持向量机(support vector machine,SVM)、极 2.3 最优模型解释及可视化
端梯度提升(extreme gradient boosting,XGB)、随机森 在基于SHAP框架对影响卒中后患者ADL的风
林(random forest,RF)、逻辑回归(logistic regression, 险预测模型结果进行解释性分析。图 3 为 SHAP 特
LR)5种ML算法进行预测建模。 征摘要,根据特征重要性对影响ADL的风险因素进
1.3 统计学方法 行分析。如图 3 所示,贡献度前 5 的特征分别为
对于缺失比例<5%的指标,使用随机森林填补 Brunnstrom 分期(下肢)、Brunnstrom 分期(上肢)、D⁃
缺失数据。正态分布的连续变量表示为均数±标准 二聚体、ALB、年龄。采用 SHAP 对 RF 模型中重要
差(x ± s),组间比较采用两独立样本 t 检验;非正态 特征如何影响预测结果进行分析,如图4所示,当下
分布的连续变量表示为中位数(四分位数)[M(P25, 肢、上肢的 Brunnstrom 分期达到Ⅲ期时 ADL 开始提
P75)],组间比较采用秩和检验。分类变量用例数 高,Ⅳ期后ADL显著提高;当D⁃二聚体增高时,脑卒
(百分率)表示,组间比较采用χ 检验。采用受试者 中后患者的 ADL 会下降,其值接近 2 mg/L 时,则趋
2
工作特征(receiver operating characteristic,ROC)曲 于稳定;ALB接近35 g/L后,脑卒中后患者的ADL显
线、受试者工作特征曲线下面积(area under curve, 著提高;随着年龄增大,脑卒中后患者 ADL 整体呈
AUC)、精确召回率(precision recall,PR)曲线、精确 下降趋势。
召回率曲线下的面积(area under the precision recall
3 讨 论
curve,PRAUC)、准确率、灵敏度和特异度进行模型
评估,使用十倍交叉验证进行模型训练。 脑卒中后患者ADL受多重因素影响,为避免患
采用 R 软件(版本 4.2.2,https://www.r⁃project. 者卒中后 ADL 丧失,保证其生活质量,构建针对卒
org)完成数据预处理、特征选择、超参数优化、ML模 中后患者 ADL 的预测模型具有较高的临床价值。
型 构 建 和 综 合 评 估 。 使 用 Python(版 本 3.11.3, 本研究纳入的 423 例脑卒中患者,通过 LASSO 回归
https://www.python.org)绘制 SHAP 解释。P < 0.05 筛选了 16 个广泛使用的临床特征,包括年龄、脑卒
为差异有统计学意义。 中类型、吸烟史、饮酒史、既往脑卒中史、Brunnstrom
分期(下肢)、Brunnstrom分期(上肢)、抗血小板聚集
2 结 果
药服用史、HDL⁃C、PCT、HGB、D⁃二聚体、RDW⁃CV、
2.1 基线比较 ALB、RBC、INR,进而构建了一种基于 RF 算法的可
根据纳除标准,最终纳入研究对象423例患者, 解释的ML模型,预测脑卒中后患者ADL风险发生的
其中,BI<60分351例(82.98%),≥60分72例(17.02%)。 综合性能评价最好,可为提高脑卒中后ADL决策提
从基线结果(表 1)中可以看出 ADL 与脑卒中类型 供理论支持。
(脑出血/脑梗死)、有无下肢深静脉血栓、是否使用 SHAP值表明,在脑卒中后患者ADL风险的16个
抗血小板聚集药物、Brunnstrom 分期(上肢、手、下 特征中,排在前 5 位的分别是 Brunnstrom 分期(下
肢)、小腿三头肌肌张力、ALB、RDW⁃CV、INR以及D⁃ 肢)、Brunnstrom 分期(上肢)、D⁃二聚体、ALB、年
二聚体有关(P均< 0.05)。 龄。目前许多研究表明脑卒中后约2/3的患者会遗