Page 119 - 南京医科大学学报自然科学版
P. 119

第44卷第2期                 杜 悦,史中青,戚占如,等. 一种超声心动图关键帧智能检测方法[J].
                  2024年2月                     南京医科大学学报(自然科学版),2024,44(2):253-262                        ·257 ·


                    神经网络架构:为充分提取超声心动图的时空                          得各序列片段中每一帧被预测为ED或ES帧的概率
                信息,采用深度神经网络架构 ResNet 作为编码器,                       值。接着,对原始视频各帧关联窗口的所有预测值
                对超声序列中每一帧的空间特征进行编码,然后将                            求均值,从而得到相应帧为关键帧的概率。计算见
                获取的空间特征传递给 VST,以捕获这些空间特征                          式2,其中 y 为第n个序列片段中第i帧的预测值,
                                                                            n,i
                之间的时间依赖关系。                                        y 为原始视频中第t帧为关键帧的概率值,N代表原
                                                                   t
                    空间特征提取:首先,使用 ResNet 编码器从每                     始视频每帧关联的窗口数量。最后,通过查找概率
                帧图像中捕获空间特征。ResNet 网络由一系列的                         的极大值确定网络预测的原始视频关键帧,曲线极
                残差块堆叠而成,每个块包含多个卷积层,通过跨                            大值用红色点表示(图6)。
                层连接构造本体映射 x 和残差映射 F(x),最终学习                                 N
                                                                      y =  1  y                              式2
                                                                       t
                的结果为 H(x)=F(x)+x,这种结构有效地解决了深                              N ∑ n,1
                                                                            n = 1
                层网络训练时可能存在的梯度弥散问题,利于网络
                提取图像深层特征。                                                  1.0   ED
                    时间特征提取:单帧图像空间特征被传递到                                    0.8   ES
                VST,以进行输入序列片段各帧之间的关联信息提                                    0.6
                取。VST由模型阶段和头2个部分组成。模型阶段                                   Probability  0.4
                由多个重复的阶段组成,每个阶段包括VST 块和融
                                                                           0.2
                合块。VST模块引入了视频窗口多头自注意力机制
                                                                            0
               (video windows multi ⁃ head self ⁃ attention,video W ⁃          0   20   40  60   80  100
                                                                                       Video frame index
                MSA)和视频位移窗口多头自注意力机制(video
                                                                                 图6   网络预测结果
                shifted windows multi⁃head self⁃attention,video SW⁃
                                                                           Figure 6  Network prediction result
                MSA),允许在局部窗口内并行计算,以捕获视频序列
                中的长程时空依赖关系。融合块类似于最大池化,用                           1.2.3 实验细节
                于降采样、增加通道数,同时保持视频帧数不变。经                               实验环境:配置见表1。
                过模型阶段之后,获得多帧数据的高维特征,最后使                                          表1   实验环境配置
                用头进行特征融合。完整的VST块结构见图5。                               Table 1  Configuration of experimental environment

                                                                      Configuration             Computer
                                                                        System                 Windows 10
                     Z l                     Z l+1                 Programming language         Python 3.8
                                                                      DL framework           Pytorch⁃GPU 1.10
                        MLP                      MLP                     CPU            Intel(R)Core(TM)i5⁃12600KF
                                                                         GPU           NVIDIA GeForce ® GTX 3090Ti
                         LN                       LN                     RAM                  32GB 3200MHz
                     Z l                     Z l + 1                  数据增强:为提高模型的泛化能力并减少过拟

                                                                  合,在模型训练阶段对数据进行了空间和时间两个
                      3D W⁃MSA                 3D SW⁃MSA
                                                                  维度的增强。空间数据增强包括:缩放、随机旋转,
                                                                  值得注意的是,所使用的心脏超声数据 MV 结构具
                         LN                       LN
                                                                  有特定的方向和生理特征,因此不宜用翻转操作;
                    Z l-1                     Z l
                                                                  时间数据增强方面,随机以 1、2、4 的步长对视频帧
                                 图5  VST模块                        进行等间隔采样,以丰富样本的时间尺度,强化模
                              Figure 5 VST module                 型对不同尺度时间特征的提取能力,若采样至视频
                                                                  末端,序列帧数小于采样大小,则补充零帧。
                    模型推理:为使模型能够处理任意长度的二维                              训练细节:在南京鼓楼医院数据集上,网络输
                超声心动图视频,引入滑动窗口技术,将视频划分                            入图像大小为 320×320 像素;在 EchoNet⁃Dynamic⁃
                为多个重叠的序列片段,输入到神经网络中,以获                            Tiny 数据集上,网络输入图像大小为 112×112 像
   114   115   116   117   118   119   120   121   122   123   124