Page 119 - 南京医科大学学报自然科学版
P. 119
第44卷第2期 杜 悦,史中青,戚占如,等. 一种超声心动图关键帧智能检测方法[J].
2024年2月 南京医科大学学报(自然科学版),2024,44(2):253-262 ·257 ·
神经网络架构:为充分提取超声心动图的时空 得各序列片段中每一帧被预测为ED或ES帧的概率
信息,采用深度神经网络架构 ResNet 作为编码器, 值。接着,对原始视频各帧关联窗口的所有预测值
对超声序列中每一帧的空间特征进行编码,然后将 求均值,从而得到相应帧为关键帧的概率。计算见
获取的空间特征传递给 VST,以捕获这些空间特征 式2,其中 y 为第n个序列片段中第i帧的预测值,
n,i
之间的时间依赖关系。 y 为原始视频中第t帧为关键帧的概率值,N代表原
t
空间特征提取:首先,使用 ResNet 编码器从每 始视频每帧关联的窗口数量。最后,通过查找概率
帧图像中捕获空间特征。ResNet 网络由一系列的 的极大值确定网络预测的原始视频关键帧,曲线极
残差块堆叠而成,每个块包含多个卷积层,通过跨 大值用红色点表示(图6)。
层连接构造本体映射 x 和残差映射 F(x),最终学习 N
y = 1 y 式2
t
的结果为 H(x)=F(x)+x,这种结构有效地解决了深 N ∑ n,1
n = 1
层网络训练时可能存在的梯度弥散问题,利于网络
提取图像深层特征。 1.0 ED
时间特征提取:单帧图像空间特征被传递到 0.8 ES
VST,以进行输入序列片段各帧之间的关联信息提 0.6
取。VST由模型阶段和头2个部分组成。模型阶段 Probability 0.4
由多个重复的阶段组成,每个阶段包括VST 块和融
0.2
合块。VST模块引入了视频窗口多头自注意力机制
0
(video windows multi ⁃ head self ⁃ attention,video W ⁃ 0 20 40 60 80 100
Video frame index
MSA)和视频位移窗口多头自注意力机制(video
图6 网络预测结果
shifted windows multi⁃head self⁃attention,video SW⁃
Figure 6 Network prediction result
MSA),允许在局部窗口内并行计算,以捕获视频序列
中的长程时空依赖关系。融合块类似于最大池化,用 1.2.3 实验细节
于降采样、增加通道数,同时保持视频帧数不变。经 实验环境:配置见表1。
过模型阶段之后,获得多帧数据的高维特征,最后使 表1 实验环境配置
用头进行特征融合。完整的VST块结构见图5。 Table 1 Configuration of experimental environment
Configuration Computer
System Windows 10
Z l Z l+1 Programming language Python 3.8
DL framework Pytorch⁃GPU 1.10
MLP MLP CPU Intel(R)Core(TM)i5⁃12600KF
GPU NVIDIA GeForce ® GTX 3090Ti
LN LN RAM 32GB 3200MHz
Z l Z l + 1 数据增强:为提高模型的泛化能力并减少过拟
合,在模型训练阶段对数据进行了空间和时间两个
3D W⁃MSA 3D SW⁃MSA
维度的增强。空间数据增强包括:缩放、随机旋转,
值得注意的是,所使用的心脏超声数据 MV 结构具
LN LN
有特定的方向和生理特征,因此不宜用翻转操作;
Z l-1 Z l
时间数据增强方面,随机以 1、2、4 的步长对视频帧
图5 VST模块 进行等间隔采样,以丰富样本的时间尺度,强化模
Figure 5 VST module 型对不同尺度时间特征的提取能力,若采样至视频
末端,序列帧数小于采样大小,则补充零帧。
模型推理:为使模型能够处理任意长度的二维 训练细节:在南京鼓楼医院数据集上,网络输
超声心动图视频,引入滑动窗口技术,将视频划分 入图像大小为 320×320 像素;在 EchoNet⁃Dynamic⁃
为多个重叠的序列片段,输入到神经网络中,以获 Tiny 数据集上,网络输入图像大小为 112×112 像