Page 118 - 南京医科大学学报自然科学版
P. 118

第44卷第2期
               ·256 ·                          南   京 医 科       大 学      学 报                        2024年2月


                       1.0                        ED            CNN与视频旋转变压器VST的混合架构,旨在分析
                                                  ES
                       0.8                                      心脏超声视频并提取其时空特征。首先使用 CNN
                      Probability  0.6                          捕获输入视频帧的空间特征,然后结合VST 提取视
                                                                频中的时间动态信息,将这些特征整合到全连接层
                       0.4
                                                                中,最终输出各帧为 ED 或 ES 帧的预测概率(图
                       0.2
                                                                4A)。利用滑动窗口对任意长度超声序列推理(图
                        0
                           0   10  20  30  40  50   60          4B),首先使用滑动窗口对超声视频进行分割,生成
                                  Video frame index             固定长度、重叠、分块的超声序列片段,其次将各序
                       图3 每一帧为ED帧或ES帧的概率                        列片段输入到神经网络以生成各帧为关键帧的概
              Figure 3  The probability of each frame being an ED  率,将所有帧在关联窗口下预测值的均值作为最终
                        frame or and ES frame
                                                                结果。


                       A        Feature encoder  Temporal decoder
                                  ResNet
                           X1
                                  ResNet
                           X2
                                                   Video
                           ·        ·                               FC
                           ·        ·               Swin
                           ·        ·                              Layers  ES
                                                 Transformer
                                  ResNet
                          XN⁃1
                                                                           ED
                                  ResNet
                           XN
                       B             X1                 X2                            XN


                                                                          •••


                                            ED
                                                                                   ES




                                                                    •••

                             ES
                             ED
                                              ED
                                                                    •••
                                              ES
                                                                              ED
                                      Superimposed average                    ES
                                                                      Superimposed average
                                                1.0
                                                     ED
                                                0.8
                                               Probability  0.6  ES
                                                0.4
                                                0.2
                                                   0  20  40  60  80 100
                                                       Video frame index
                                                    Sequence average prediction
                              A:The neural network architecture. B:The process of inferencing by using sliding window technology.
                                             图4   超声心动图关键帧智能检测方法框架
                            Figure 4 Framework of intelligent detection method for key frames of echocardiography
   113   114   115   116   117   118   119   120   121   122   123