Page 120 - 南京医科大学学报自然科学版
P. 120

第44卷第2期
               ·258 ·                          南   京 医 科       大 学      学 报                        2024年2月


              素。使用ResNet50作为空间特征编码器,并使用在
                                                                2  结 果
              ImageNet 数据集上经过预训练的模型权重,以提高
              训练效率。选用Adam网络优化器,初始学习率设置                               为详尽分析 ResNet+VST 模型的准确性与鲁棒
              为 10 ,并采用多步长学习率衰减策略,训练轮数                          性,本研究分别在南京鼓楼医院数据集与 EchoNet⁃
                   -5
             (epoch)设为 500,在现有数据集规模下,批大小                        Dynamic⁃Tiny 数据集上进行实验,使用 1.2.4 节评估
             (batch size)设置为4,设置序列采样大小为16,以均                    指标衡量模型在测试集上的准确性。
              衡物理显存与时序感受野,丢弃单元(dropout)概率                            本研究在南京鼓楼医院数据集上,分析了
              为 0.5,以增强模型泛化性,损失函数采用均方误差                         ResNet+VST模型预测结果与真实标签的差异,表明
             (mean square error,MSE),以提高对异常值的敏感                 其准确性(2.1.1),并将其与现阶段较为先进的 3D
              度并确保关键帧概率值的时间平滑性(式 3),其中                          CNN + LSTM  [10] 与 ResNet + LSTM [11] 模型进行对比,
              Yn,t和 Y n,t  分别表示为第n个样本中第t帧的真实标                   表明其先进性(2.1.2);进一步地,本研究基于公开
              签和网络预测概率值。                                        数据集 EchoNet⁃Dynamic 构建的 EchoNet⁃Dynamic⁃
                                 )
                       N  T       2                             Tiny 子数据集上,分析了前述 3 种模型相应的性能
                  L MSE =∑∑( Y n,t - Y n,t               式3
                                                                表现(2.2),更充分地衡量 ResNet+VST 模型的泛化
                       n = 1 t = 1
                  测试细节:在南京鼓楼医院数据集上,网络输
                                                                性,便于后续研究者对该模型性能表现进行更客观
              入图像大小为 224×224 像素,在 EchoNet⁃Dynamic⁃
                                                                详尽的评估。
              Tiny 数据集上,网络输入图像大小为 112×112 像
                                                                2.1 南京鼓楼医院数据集
              素。帧采样步长设置为 1,滑动窗口步长统一设置
                                                                2.1.1 模型预测结果与真实标签对比
              为1,窗口宽度统一设置为16帧,在处理每个视频末
                                                                     在 A2C、A3C、A4C 切面上,ResNet+VST 模型的
              端时,若序列长度<16帧,则在其末尾填充0帧,且计
                                                                心动周期检出率均高于97%,ED、ES的AFD均小于
              算关键帧概率时,0帧不纳入计算范畴。
                                                                1.65(表2),且模型预测值与真实标签之间显示出高
              1.2.4 评估指标
                                                                度一致性(图7)。
                                                          [11]
                  使用平均帧差(average frame difference,AFD)
                                                                     在 A2C、A3C 和 A4C 切面中各随机挑选 1 个视
              衡量所提出方法的预测结果与真实标签之间的绝
                                                                频,将ResNet+VST模型的关键帧检测结果与视频帧
              对误差大小(式 4、5),其中,yi代表 ED 或 ES 帧的真
                                                                进行匹配。对于 A2C 的 ED、ES 帧,以及 A3C 的 ED
              实标签,y 表示ED或ES的预测帧索引,N是测试集
                                                                帧,预测结果均与人工标注仅相差1帧,且预测帧与
                       i
              内ED或ES帧的总数量。
                                                                真实标签帧的图像内容较为接近(图 8A、B);对于
                         1  N
                  AFD =   ∑| y - y                       式4     A3C的ES帧与A4C的ED、ES帧,预测结果与人工标
                         N     i  | i
                           i = 1                                注完全一致(图8B、C)。
                         æ 1   N       2 ö
                  std = sqrt ç  ∑ i = 1| y - y  | i  ÷   式5
                                  i
                         è N           ø                        2.1.2 不同模型对比
              1.3  统计学方法                                             在相同的预处理、数据增强和超参数设置下,
                  实验数据采用 Python 3.8 软件进行统计学分                    将所提出的模型与 3D CNN+LSTM              [10] 和 ResNet+
              析,计量资料以均数±标准差(x ± s)表示,计数资料                       LSTM [11] 关键帧检测模型在临床应用场景更多的
              以百分数(%)表示。多组样本均数比较采用单因素                           A4C切面上进行比较(表3)。ResNet+VST模型在检
              方差分析(one⁃way ANOVA),P < 0.05为差异有统计                测精度、推理时间方面均优于其他两个模型。单因
              学意义。                                              素方差分析结果显示,3 种模型之间存在显著性差


                                      表2  3类切面模型心动周期检出率与关键帧检测平均帧差情况
               Table 2  Detection rate of cardiac cycle and average frame difference of key frame detection in three types of view models
                                                         Cardiac cycle                      AFD(x ± s)
                  View types  Test videos
                                        Predicted number  True number  Detection rate(%)  ED          ES
                  A2C           50           106.0         107.0          099.06       1.52 ± 1.09  1.56 ± 1.16
                  A3C           27           045.0         045.0          100.00       1.62 ± 1.43  1.63 ± 1.25
                  A4C           56           114.0         116.5          097.85       1.27 ± 1.17  1.45 ± 1.38
   115   116   117   118   119   120   121   122   123   124   125