Page 127 - 南京医科大学学报自然科学版
P. 127

第41卷第9期         任晓佳,刘俊卿,耿晓晴,等. 基于可得数据的乳腺癌患者静脉血栓栓塞症风险因素识别及
                  2021年9月           预测模型构建[J]. 南京医科大学学报(自然科学版),2021,41(09):1392-1395,1424               ·1393 ·


                差异,并在此基础上进一步构建了针对乳腺癌患者                            测模型构建提供依据。首先,对10个指标中的连续
                的VTE风险预测模型。                                       数值型指标进行正态性检验,结果显示被检验指标
                                                                  均不服从正态分布,不满足参数检验的条件,也不
                1  资料和方法
                                                                  宜采用均值、方差等描述。因此,从中位数(四分位
                1.1  资料                                           数)、正常值区间两个角度描述各指标(表1)。采用
                    选取 2017—2020 年天津医科大学肿瘤医院部                     同时适用于非正态分布变量及二分类变量的非参
                分住院患者共计 548 例,其中包含确诊乳腺癌并同                         数检验(曼⁃惠特尼 U 检验)方法比较各指标在 VTE
                时确诊VTE的VTE患者274例,确诊乳腺癌且未确诊                        患者与非 VTE 患者间是否具有显著性差异。将各
                VTE的非VTE患者274例。所有患者的数据均经过                         指标按照正常值百分比由低到高排序,依次为:BMI
                脱敏处理。                                            (46.72%)、脂 蛋 白(54.56%)、D ⁃ 二 聚 体 水 平
                    由于患者每次住院并不一定会检查所有的相                          (62.59%)、血小板计数(88.32%)、血浆蛋白 C 活性
                关检验项目,因此,实际情况中想要获取某一位患                           (93.25%)、C⁃反应蛋白(95.44%)。VTE 组及非 VTE
                者的所有相关指标几乎不可能。经过前期复杂的数                            组各指标比较见表2。体重、是否有手术史、D⁃二聚
                据预处理工作,可以提取出以下3个方面共计10个可                          体水平、脂蛋白、血浆蛋白 C 活性、C⁃反应蛋白指标
                得指标。包括人口统计学指标:年龄、体重、体重指                           在 VTE 和非 VTE 患者间差异有统计学意义(P<
                数(body mass index,BMI);病史:是否患糖尿病、是                0.05,表2)。
                否有手术史;血液指标:D⁃二聚体水平、脂蛋白、血
                浆蛋白C活性、血小板计数、C⁃反应蛋白。其中是否                                表1 各指标描述性统计结果及正常值区间
                患糖尿病、是否有手术史为序数变量,1代表否,2代                                                               (n=548)
                                                                         指标           数值[M(P25,P75 )]  正常值区间
                表是。其余变量为连续数值型变量,其值代表该变
                                                                   年龄(岁)            056.00(49.00,64.00)   —
                量的具体数值。本研究中所用到的数据已经全部
                                                                   体重(kg)           065.00(60.00,70.00)   —
                经过脱敏处理,形成无法辨认身份的实验数据。同
                                                                   BMI(kg/m)        025.26(22.89,26.56)  18.5~<25.0
                                                                          2
                时,本研究对实验数据进行了严格保密,不会用于                             D⁃二聚体水平(ng/mL)399.85(260.15,699.38)   0~500
                研究外的其他用途。                                          脂蛋白(nmol/L)      068.00(30.25,195.75)  0~75
                1.2  方法                                            血浆蛋白C活性(%) 109.90(98.03,125.18)       70~140
                    阅读分析现有文献,总结出可能影响乳腺癌患                           血小板计数(×10 /L) 246.50(206.25,289.00) 125~350
                                                                               9
                者是否患VTE的指标集合,并与目前医院信息系统                            C⁃反应蛋白(mg/L)     003.00(1.50,5.82)    0~10
                中的可得指标取并集,得到10个相关风险指标。采
                用 SPSS 19.0 统计软件进行数据分析。描述性统计                      2.2  乳腺癌患者VTE风险预测模型构建
                分析给出样本的中位数(四分位数)[M(P25,P75 )]、                        基于提取出的 10 个可得指标,利用 Logistic 回
                正常值区间。采用非参数检验(曼⁃惠特尼 U 检验)                         归构建VTE风险预测模型。一方面,利用模型拟合
                探索乳腺癌 VTE 患者和非 VTE 患者在各指标方面                       系数的显著性检验进一步验证上述关于乳腺癌患
                是否有显著性差异,P<0.05 为差异具有统计学意                         者 VTE 风险因素识别结果,另一方面,也可以利用
                义。采用Logistic回归方法,以548例样本中的500例                    Logistic 回归模型良好的预测功能来对乳腺癌患者
                作为训练集,构建乳腺癌患者VTE风险预测模型,并                          罹患VTE的风险进行预测,从而更好地协助医生从
                用剩余的 48 例样本组成的测试集测试模型的预测                          乳腺癌患者中尽快识别潜在的VTE风险个体,完善
                能力。同时,结合曼⁃惠特尼U检验得到的指标显著                           患者的诊治过程。
                性结果进行校验和讨论。                                           采用 SPSS 19.0 统计软件对 500 个样本组成的
                                                                  训练集数据进行Logistic回归分析,并选择前向逐步
                2  结 果
                                                                  回归进行变量筛选。表 3 显示了 Baseline 模型的预
                2.1  乳腺癌患者VTE风险因素识别                               测结果。Baseline 拟合的是不包含任何自变量只有
                    对现有可得指标中可能的 VTE 风险因素进行                        常数项的无效模型。在 Baseline 模型中,总预测准
                识别,探索乳腺癌VTE患者与非VTE患者在这10个                         确率为50.6%。
                指标方面是否具有显著性差异,从而为进一步的预                                表4显示了尚未纳入模型方程的变量及其比分
   122   123   124   125   126   127   128   129   130   131   132