Page 95 - 《南京医科大学学报》自然科学版2026年第2期
P. 95

第46卷第2期        王  娇,周怡君,孙文娟,等. 基于多种机器学习算法构建并验证维持性血液透析患者全因死亡
                  2026年2月              风险预测模型[J]. 南京医科大学学报(自然科学版),2026,46(2):247-255                    ·251 ·


                2.3  预测模型的构建与验证                                       1.00
                    建模结果显示,10 种机器学习算法模型中,
                SVM 模 型 对 MHD 患 者 死 亡 的 预 测 效 能 最 高
                                                                      0.75
               (AUC=0.928),其后依次是KNN模型(AUC=0.917)、
                RF 模型(AUC=0.911)、Logistic 模型(AUC=0.905)、
                GBM 模型(AUC=0.905)、LDA 模型(AUC=0.902)、                Sensitivity  0.50
                NB 模 型(AUC=0.900)、MLP 模 型(AUC=0.894)、
                XGBoost 模型(AUC=0.851)、DT 模型(AUC=0.815),
                各机器学习算法的ROC曲线见图2。各模型的准确                               0.25
                度、灵敏度及 F1 值详见表 2,10 种模型的准确度范
                围为 80.11%~86.93%,其中 KNN 模型的准确度最
                                                                        0
                高,为86.93%。SVM模型和NB模型的灵敏度最高,                              0       0.25     0.50     0.75     1.00
                为89.47%。                                             Model(AUC)        1-Specificity
                    SVM 模型的混淆矩阵图及 ROC 曲线图见图 3。                        Decision tree(0.815)  KNN(0.917)  Logistic(0.905)
                                                                                       LDA(0.902)
                                                                      GBM(0.905)
                                                                                                    MLP(0.894)
                结果显示,SVM 模型外部验证集中 AUC 为 0.835,                        Naive Bayes(0.900)  SVM(0.928)
                                                                      Random forest(0.911)
                                                                                       XGBoost(0.851)
                提示本研究构建的 SVM 模型具有较强的外部泛化                                 图2   10种机器学习模型ROC曲线图
                能力。                                                 Figure 2  ROC curves of 10 machine learning models
                                              表2 10种机器学习算法的预测性能指标比较
                            Table 2 Comparison of predictive performance metrics for 10 machine learning algorithms
                     Model       AUC       95%CI     Accuracy(%)   Sensitivity(%)  Specificity(%)  Precision(%)  F1
                 Logistic regression  0.905  0.859-0.951  84.66       81.58         87.00        82.67     82.12
                 SVM             0.928   0.886-0.969    86.36         89.47         84.00        91.89     90.66
                 RF              0.911   0.866-0.957    84.09         82.89         84.09        80.77     81.82
                 KNN             0.917   0.873-0.961    86.93         88.16         86.00        82.72     85.35
                 DT              0.815   0.752-0.878    80.11         78.95         81.00        78.48     78.71
                 XGBoost         0.851   0.797-0.905    85.23         84.21         86.00        85.33     84.77
                 NB              0.900   0.854-0.946    81.25         89.47         75.00        73.12     80.47
                 LDA             0.902   0.855-0.950    83.52         80.26         86.00        81.33     80.79
                 GBM             0.905   0.857-0.952    84.09         81.58         86.00        81.58     81.58
                 MLP             0.894   0.844-0.944    82.95         76.32         88.00        82.86     79.46
                   SVM:support vector machine;RF:random forest:KNN:k⁃nearest neighbors;DT:decision tree;XGBoost:eXtreme gradient boosting;NB:naive
                Bayes;LDA:linear discriminant analysis;GBM:gradient boosting machine;MLP:multilayer perceptron.

                A                              B                                 C
                     Confusion matrix for SVM model  Confusion matrix for SVM external validation
                                                                                    1.00

                  Deceased  16        68           Deceased  24        11           0.75
                 Predicted Labels           Frequency  Predicted Labels      Frequency  Sensitivity  0.50
                                                                              80
                                             80
                                                                              60
                                             60
                                                                              40
                                             40
                                             20
                                                                              20
                   Survival  84       8            Survival  65        3            0.25           SVM model
                                                                                              SVM model extemal validation
                                                                                                  (AUC=0.835)
                                                                                      0
                          Survival  Deceased              Survival  Deceased           0    0.25  0.50  0.75  1.00
                             Actual labels                    Actual labels                    1-Specificity
                A:Confusion matrix for SVM model internal validation. B:Confusion matrix for SVM model external validation. C:ROC curve of SVM model external validation.
                                               图3   SVM模型的混淆矩阵图及ROC曲线
                                         Figure 3 Confusion matrix for SVM model and ROC curve
   90   91   92   93   94   95   96   97   98   99   100