Page 86 - 南京医科大学自然版
P. 86

第44卷第5期
               ·674 ·                            南 京    医 科 大 学 学         报                        2024年5月


              corpuscular volume,MCV)、红细胞压积(hematocrit,         2.2  特征变量筛选及模型构建
              HCT)、红细胞计数(red blood count,RBC)、凝血酶                    经 LASSO 回归分析后,共筛选了 16 个特征(图
              原时间(prothrombin time,PT)、部分凝血活酶时间                 1),包括年龄、卒中类型、吸烟史、饮酒史、既往卒中
             (activated partial thromboplastin time,APTT)、纤维蛋   史、Brunnstrom 分期(上肢)、Brunnstrom 分期(下
              白原(fibrinogen,FIB)、国际标准化比值(international          肢)、抗血小板聚集药服用史、HDL⁃C、PCT、HGB、D⁃
              normalized ratio,INR)、凝血酶时间(thrombin time,        二聚体、RDW⁃CV、ALB、RBC、INR。基于上述 16 个
              TT)、D⁃二聚体(D⁃dimer)、下肢深静脉血栓形成等                     特征构建 5 个 ML 模型。对 ROC 曲线、AUC、PR 曲
              25个指标。                                            线、PRAUC、准确率、灵敏度和特异度进行模型评估
              1.2.2 模型构建与评估                                     后发现 RF 模型为最优模型(图 2),其具有最大的

                  利用最低绝对收缩和选择算子(least absolute                  AUC 值(0.74),PRAUC(0.64),准确性(0.97),敏感
              shrink age and selection operator,LASSO)回归进行特     度(0.75)和特异度(0.97)(表2)。因此,本研究最终
              征降维筛选。基于 K 近邻模型(K⁃nearest neighbor,               选择了RF模型进行下一步的分析和应用。
              KNN)、支持向量机(support vector machine,SVM)、极          2.3  最优模型解释及可视化
              端梯度提升(extreme gradient boosting,XGB)、随机森               在基于SHAP框架对影响卒中后患者ADL的风
              林(random forest,RF)、逻辑回归(logistic regression,     险预测模型结果进行解释性分析。图 3 为 SHAP 特
              LR)5种ML算法进行预测建模。                                  征摘要,根据特征重要性对影响ADL的风险因素进
              1.3 统计学方法                                         行分析。如图 3 所示,贡献度前 5 的特征分别为
                  对于缺失比例<5%的指标,使用随机森林填补                         Brunnstrom 分期(下肢)、Brunnstrom 分期(上肢)、D⁃
              缺失数据。正态分布的连续变量表示为均数±标准                            二聚体、ALB、年龄。采用 SHAP 对 RF 模型中重要
              差(x ± s),组间比较采用两独立样本 t 检验;非正态                     特征如何影响预测结果进行分析,如图4所示,当下
              分布的连续变量表示为中位数(四分位数)[M(P25,                        肢、上肢的 Brunnstrom 分期达到Ⅲ期时 ADL 开始提
              P75)],组间比较采用秩和检验。分类变量用例数                          高,Ⅳ期后ADL显著提高;当D⁃二聚体增高时,脑卒
             (百分率)表示,组间比较采用χ 检验。采用受试者                           中后患者的 ADL 会下降,其值接近 2 mg/L 时,则趋
                                          2
              工作特征(receiver operating characteristic,ROC)曲      于稳定;ALB接近35 g/L后,脑卒中后患者的ADL显
              线、受试者工作特征曲线下面积(area under curve,                  著提高;随着年龄增大,脑卒中后患者 ADL 整体呈
              AUC)、精确召回率(precision recall,PR)曲线、精确              下降趋势。
              召回率曲线下的面积(area under the precision recall
                                                                3  讨 论
              curve,PRAUC)、准确率、灵敏度和特异度进行模型
              评估,使用十倍交叉验证进行模型训练。                                     脑卒中后患者ADL受多重因素影响,为避免患
                  采用 R 软件(版本 4.2.2,https://www.r⁃project.       者卒中后 ADL 丧失,保证其生活质量,构建针对卒
              org)完成数据预处理、特征选择、超参数优化、ML模                        中后患者 ADL 的预测模型具有较高的临床价值。
              型 构 建 和 综 合 评 估 。 使 用 Python(版 本 3.11.3,          本研究纳入的 423 例脑卒中患者,通过 LASSO 回归
              https://www.python.org)绘制 SHAP 解释。P < 0.05        筛选了 16 个广泛使用的临床特征,包括年龄、脑卒
              为差异有统计学意义。                                        中类型、吸烟史、饮酒史、既往脑卒中史、Brunnstrom
                                                                分期(下肢)、Brunnstrom分期(上肢)、抗血小板聚集
              2  结 果
                                                                药服用史、HDL⁃C、PCT、HGB、D⁃二聚体、RDW⁃CV、
              2.1  基线比较                                         ALB、RBC、INR,进而构建了一种基于 RF 算法的可
                  根据纳除标准,最终纳入研究对象423例患者,                        解释的ML模型,预测脑卒中后患者ADL风险发生的
              其中,BI<60分351例(82.98%),≥60分72例(17.02%)。            综合性能评价最好,可为提高脑卒中后ADL决策提
              从基线结果(表 1)中可以看出 ADL 与脑卒中类型                        供理论支持。
             (脑出血/脑梗死)、有无下肢深静脉血栓、是否使用                                SHAP值表明,在脑卒中后患者ADL风险的16个
              抗血小板聚集药物、Brunnstrom 分期(上肢、手、下                     特征中,排在前 5 位的分别是 Brunnstrom 分期(下

              肢)、小腿三头肌肌张力、ALB、RDW⁃CV、INR以及D⁃                    肢)、Brunnstrom 分期(上肢)、D⁃二聚体、ALB、年
              二聚体有关(P均< 0.05)。                                  龄。目前许多研究表明脑卒中后约2/3的患者会遗
   81   82   83   84   85   86   87   88   89   90   91