Page 122 - 南京医科大学学报自然科学版
P. 122

第44卷第2期
               ·260 ·                          南   京 医 科       大 学      学 报                        2024年2月


              频帧进行匹配。结果显示模型的 ES 预测帧与真实                               使用 EchoNet⁃Dynamic⁃Tiny 数据集,将所提出
              标签完全一致,而 ED 预测帧与真实标签帧非常接                          的 ResNet+VST 模型与 3D CNN+LSTM       [10] 、ResNet+
              近且图像内容相似度较高(图9)。                                  LSTM [11] 模型进行比较(表 4)。针对公开的超声心


                              ED& ED               ES& ES                                   ED       ED


                •••                           •••                           •••                           •••

               Frame No  50     51       52          74       75       76          99       100      101
                                               ED,ES:true label;ED ,ES :model prediction.
                        图9 EchoNet⁃Dynamic⁃Tiny数据集ResNet+VST模型关键帧检测结果与真实标签对应视频帧示例
              Figure 9  Example of video frames corresponding to the keyframe detection results of the EchoNet⁃Dynamic⁃Tiny dataset
                       ResNet+VST model and label


              动图数据集,所提出的ResNet+VST模型在关键帧检
                                                                3  讨 论
              测任务中的预测结果与真实标签更为接近,表现出
              更高的准确性与更快的推理速度。单因素方差分                                  超声心动图凭借无创、无辐射、安全等特点,成
              析结果显示,3 种模型之间存在显著性差异(P <                          为心脏疾病诊断的主要医学影像手段。其中,ED和
              0.05)。Tukey检验结果进一步证明,ResNet+VST 模                 ES 帧检测对于评估超声心动图图像质量和测量心
              型与3D CNN+LSTM 以及ResNet+LSTM 模型之间均                 脏参数至关重要。临床上ED和ES帧的选定主要依
              存在显著性差异(P < 0.05)。                                靠医师借助ECG或目测LV的容积,可重复性差,相


                           表4 EchoNet⁃Dynamic⁃Tiny数据集A4C切面不同模型ED、ES帧检测误差与推理时间对比
              Table 4  Comparison of detection error and inferencing time of ED and ES frames of different models on A4C view of Echo⁃
                      Net⁃Dynamic⁃Tiny dataset                                                         (x ± s)
                                                           Model
                   Performance                                                             F          P
                                            A                B                C
                   AFD(ED)             1.620 ± 1.260 *#  1.770 ± 1.470 #  1.830 ± 1.680   2.892      0.037
                   AFD(ES)             1.710 ± 1.180 *#  1.980 ± 1.660 #  1.810 ± 1.750   3.026      0.032
                   Inference time(s)   0.010 ± 0.001 *#  0.141 ± 0.003 #  0.120 ± 0.001   >100      <0.001
                                                                             *
                                                                                               #
                 A:ResNet+VST model. B:3D CNN+LSTM model. C:ResNet+LSTM model. Compared with B,P < 0.05;Compared with C,P < 0.05.
              比之下,自动检测快速、高效、可重复性好。目前                            切面上,模型预测的心动周期数量与真实数量均较
              已有一些基于 DL 的超声心动图关键帧智能检测                           为接近,证明了所提出方法的有效性,模型预测的
              方法  [6-7,11-14,16-18] ,但它们主要关注A4C 切面,并且无          ED 和 ES 帧与真实标签之间的 AFD 均小于 1.65,表
              法同时满足检测精度和推理耗时的要求。为解决                             明模型拥有较高的准确率且预测值与真实标签之
              这些问题,本研究提出了一种新的关键帧检测模型                            间显示出高度一致性;在EchoNet⁃Dynamic⁃Tiny数据

              ResNet+VST,该模型结合了带有跨层连接的ResNet                    集A4C切面上,模型预测的ED和ES帧的AFD均小
              和带有自注意力机制的 VST,能够有效提取超声序                          于1.75,且相比3D CNN+LSTM 、ResNet+LSTM 模
                                                                                                          [11]
                                                                                           [10]
              列图像的复杂时空信息,并结合曲线回归策略,将网                           型,ResNet+VST 模型在2个数据集上的预测结果更
              络输出回归为关键帧的概率,将复杂的关键帧检测问                           接近真实标签,各模型预测结果之间均存在显著性
              题转化为概率曲线回归问题。                                     差异。此外,与利用 LSTM 进行时序建模的相关研
                  本研究结果表明,ResNet+VST模型在南京鼓楼                     究 [10-11] 相比,ResNet+VST 模型计算上高度并行,减
              医院数据集和EchoNet⁃Dynamic⁃Tiny 数据集上表现                 少 了 推 理 时 间 的 消 耗 ,在 Intel(R)Core(TM)i5 ⁃
              良好。在南京鼓楼医院数据集 A2C、A3C、A4C 3 类                     12600KF CPU与NVIDIA GeForce GTX 3090Ti GPU
                                                                                              ®
   117   118   119   120   121   122   123   124   125   126   127