Page 127 - 南京医科大学学报自然科学版
P. 127
第41卷第9期 任晓佳,刘俊卿,耿晓晴,等. 基于可得数据的乳腺癌患者静脉血栓栓塞症风险因素识别及
2021年9月 预测模型构建[J]. 南京医科大学学报(自然科学版),2021,41(09):1392-1395,1424 ·1393 ·
差异,并在此基础上进一步构建了针对乳腺癌患者 测模型构建提供依据。首先,对10个指标中的连续
的VTE风险预测模型。 数值型指标进行正态性检验,结果显示被检验指标
均不服从正态分布,不满足参数检验的条件,也不
1 资料和方法
宜采用均值、方差等描述。因此,从中位数(四分位
1.1 资料 数)、正常值区间两个角度描述各指标(表1)。采用
选取 2017—2020 年天津医科大学肿瘤医院部 同时适用于非正态分布变量及二分类变量的非参
分住院患者共计 548 例,其中包含确诊乳腺癌并同 数检验(曼⁃惠特尼 U 检验)方法比较各指标在 VTE
时确诊VTE的VTE患者274例,确诊乳腺癌且未确诊 患者与非 VTE 患者间是否具有显著性差异。将各
VTE的非VTE患者274例。所有患者的数据均经过 指标按照正常值百分比由低到高排序,依次为:BMI
脱敏处理。 (46.72%)、脂 蛋 白(54.56%)、D ⁃ 二 聚 体 水 平
由于患者每次住院并不一定会检查所有的相 (62.59%)、血小板计数(88.32%)、血浆蛋白 C 活性
关检验项目,因此,实际情况中想要获取某一位患 (93.25%)、C⁃反应蛋白(95.44%)。VTE 组及非 VTE
者的所有相关指标几乎不可能。经过前期复杂的数 组各指标比较见表2。体重、是否有手术史、D⁃二聚
据预处理工作,可以提取出以下3个方面共计10个可 体水平、脂蛋白、血浆蛋白 C 活性、C⁃反应蛋白指标
得指标。包括人口统计学指标:年龄、体重、体重指 在 VTE 和非 VTE 患者间差异有统计学意义(P<
数(body mass index,BMI);病史:是否患糖尿病、是 0.05,表2)。
否有手术史;血液指标:D⁃二聚体水平、脂蛋白、血
浆蛋白C活性、血小板计数、C⁃反应蛋白。其中是否 表1 各指标描述性统计结果及正常值区间
患糖尿病、是否有手术史为序数变量,1代表否,2代 (n=548)
指标 数值[M(P25,P75 )] 正常值区间
表是。其余变量为连续数值型变量,其值代表该变
年龄(岁) 056.00(49.00,64.00) —
量的具体数值。本研究中所用到的数据已经全部
体重(kg) 065.00(60.00,70.00) —
经过脱敏处理,形成无法辨认身份的实验数据。同
BMI(kg/m) 025.26(22.89,26.56) 18.5~<25.0
2
时,本研究对实验数据进行了严格保密,不会用于 D⁃二聚体水平(ng/mL)399.85(260.15,699.38) 0~500
研究外的其他用途。 脂蛋白(nmol/L) 068.00(30.25,195.75) 0~75
1.2 方法 血浆蛋白C活性(%) 109.90(98.03,125.18) 70~140
阅读分析现有文献,总结出可能影响乳腺癌患 血小板计数(×10 /L) 246.50(206.25,289.00) 125~350
9
者是否患VTE的指标集合,并与目前医院信息系统 C⁃反应蛋白(mg/L) 003.00(1.50,5.82) 0~10
中的可得指标取并集,得到10个相关风险指标。采
用 SPSS 19.0 统计软件进行数据分析。描述性统计 2.2 乳腺癌患者VTE风险预测模型构建
分析给出样本的中位数(四分位数)[M(P25,P75 )]、 基于提取出的 10 个可得指标,利用 Logistic 回
正常值区间。采用非参数检验(曼⁃惠特尼 U 检验) 归构建VTE风险预测模型。一方面,利用模型拟合
探索乳腺癌 VTE 患者和非 VTE 患者在各指标方面 系数的显著性检验进一步验证上述关于乳腺癌患
是否有显著性差异,P<0.05 为差异具有统计学意 者 VTE 风险因素识别结果,另一方面,也可以利用
义。采用Logistic回归方法,以548例样本中的500例 Logistic 回归模型良好的预测功能来对乳腺癌患者
作为训练集,构建乳腺癌患者VTE风险预测模型,并 罹患VTE的风险进行预测,从而更好地协助医生从
用剩余的 48 例样本组成的测试集测试模型的预测 乳腺癌患者中尽快识别潜在的VTE风险个体,完善
能力。同时,结合曼⁃惠特尼U检验得到的指标显著 患者的诊治过程。
性结果进行校验和讨论。 采用 SPSS 19.0 统计软件对 500 个样本组成的
训练集数据进行Logistic回归分析,并选择前向逐步
2 结 果
回归进行变量筛选。表 3 显示了 Baseline 模型的预
2.1 乳腺癌患者VTE风险因素识别 测结果。Baseline 拟合的是不包含任何自变量只有
对现有可得指标中可能的 VTE 风险因素进行 常数项的无效模型。在 Baseline 模型中,总预测准
识别,探索乳腺癌VTE患者与非VTE患者在这10个 确率为50.6%。
指标方面是否具有显著性差异,从而为进一步的预 表4显示了尚未纳入模型方程的变量及其比分