Page 120 - 南京医科大学学报自然科学版
P. 120
第44卷第2期
·258 · 南 京 医 科 大 学 学 报 2024年2月
素。使用ResNet50作为空间特征编码器,并使用在
2 结 果
ImageNet 数据集上经过预训练的模型权重,以提高
训练效率。选用Adam网络优化器,初始学习率设置 为详尽分析 ResNet+VST 模型的准确性与鲁棒
为 10 ,并采用多步长学习率衰减策略,训练轮数 性,本研究分别在南京鼓楼医院数据集与 EchoNet⁃
-5
(epoch)设为 500,在现有数据集规模下,批大小 Dynamic⁃Tiny 数据集上进行实验,使用 1.2.4 节评估
(batch size)设置为4,设置序列采样大小为16,以均 指标衡量模型在测试集上的准确性。
衡物理显存与时序感受野,丢弃单元(dropout)概率 本研究在南京鼓楼医院数据集上,分析了
为 0.5,以增强模型泛化性,损失函数采用均方误差 ResNet+VST模型预测结果与真实标签的差异,表明
(mean square error,MSE),以提高对异常值的敏感 其准确性(2.1.1),并将其与现阶段较为先进的 3D
度并确保关键帧概率值的时间平滑性(式 3),其中 CNN + LSTM [10] 与 ResNet + LSTM [11] 模型进行对比,
Yn,t和 Y n,t 分别表示为第n个样本中第t帧的真实标 表明其先进性(2.1.2);进一步地,本研究基于公开
签和网络预测概率值。 数据集 EchoNet⁃Dynamic 构建的 EchoNet⁃Dynamic⁃
)
N T 2 Tiny 子数据集上,分析了前述 3 种模型相应的性能
L MSE =∑∑( Y n,t - Y n,t 式3
表现(2.2),更充分地衡量 ResNet+VST 模型的泛化
n = 1 t = 1
测试细节:在南京鼓楼医院数据集上,网络输
性,便于后续研究者对该模型性能表现进行更客观
入图像大小为 224×224 像素,在 EchoNet⁃Dynamic⁃
详尽的评估。
Tiny 数据集上,网络输入图像大小为 112×112 像
2.1 南京鼓楼医院数据集
素。帧采样步长设置为 1,滑动窗口步长统一设置
2.1.1 模型预测结果与真实标签对比
为1,窗口宽度统一设置为16帧,在处理每个视频末
在 A2C、A3C、A4C 切面上,ResNet+VST 模型的
端时,若序列长度<16帧,则在其末尾填充0帧,且计
心动周期检出率均高于97%,ED、ES的AFD均小于
算关键帧概率时,0帧不纳入计算范畴。
1.65(表2),且模型预测值与真实标签之间显示出高
1.2.4 评估指标
度一致性(图7)。
[11]
使用平均帧差(average frame difference,AFD)
在 A2C、A3C 和 A4C 切面中各随机挑选 1 个视
衡量所提出方法的预测结果与真实标签之间的绝
频,将ResNet+VST模型的关键帧检测结果与视频帧
对误差大小(式 4、5),其中,yi代表 ED 或 ES 帧的真
进行匹配。对于 A2C 的 ED、ES 帧,以及 A3C 的 ED
实标签,y 表示ED或ES的预测帧索引,N是测试集
帧,预测结果均与人工标注仅相差1帧,且预测帧与
i
内ED或ES帧的总数量。
真实标签帧的图像内容较为接近(图 8A、B);对于
1 N
AFD = ∑| y - y 式4 A3C的ES帧与A4C的ED、ES帧,预测结果与人工标
N i | i
i = 1 注完全一致(图8B、C)。
æ 1 N 2 ö
std = sqrt ç ∑ i = 1| y - y | i ÷ 式5
i
è N ø 2.1.2 不同模型对比
1.3 统计学方法 在相同的预处理、数据增强和超参数设置下,
实验数据采用 Python 3.8 软件进行统计学分 将所提出的模型与 3D CNN+LSTM [10] 和 ResNet+
析,计量资料以均数±标准差(x ± s)表示,计数资料 LSTM [11] 关键帧检测模型在临床应用场景更多的
以百分数(%)表示。多组样本均数比较采用单因素 A4C切面上进行比较(表3)。ResNet+VST模型在检
方差分析(one⁃way ANOVA),P < 0.05为差异有统计 测精度、推理时间方面均优于其他两个模型。单因
学意义。 素方差分析结果显示,3 种模型之间存在显著性差
表2 3类切面模型心动周期检出率与关键帧检测平均帧差情况
Table 2 Detection rate of cardiac cycle and average frame difference of key frame detection in three types of view models
Cardiac cycle AFD(x ± s)
View types Test videos
Predicted number True number Detection rate(%) ED ES
A2C 50 106.0 107.0 099.06 1.52 ± 1.09 1.56 ± 1.16
A3C 27 045.0 045.0 100.00 1.62 ± 1.43 1.63 ± 1.25
A4C 56 114.0 116.5 097.85 1.27 ± 1.17 1.45 ± 1.38