-
医学诊疗的进步离不开医学影像的辅助,不同模态的医学影像具有对应的诊疗目的和相应条件。临床实际工作中,针对某个区域特殊的软硬组织结构进行综合分析时,需要在多种模态影像之间进行反复切换。这样既繁琐,同时也缺少各种影像数据之间在空间定位上的一致性和可对比性,这就促使研究人员在医学影像融合方面提出更高的要求。例如,在脑部CT/MR影像融合方面,Liu等[1] 提出了一种结合拉普拉斯金字塔和卷积稀疏表示的融合方法,通过在融合的基础层和细节层上执行逆拉普拉斯金字塔变换来重建融合图像。针对融合规则的改进,Li等[2] 开发了一种新的多模态医学图像融合方法,使用魏斯费勒莱曼嵌入式⁃改进的新型求和修正拉普拉斯算子(Weisfeiler Lehman embed⁃ ding ⁃improved novel sum ⁃ modified Laplacian,WLE ⁃ INSML)特征提取高频非下采样剪切波变换(non⁃ subsampled shearlet transform,NSST)系数,用于构建这些系数的融合规则。
-
颞下颌关节疾病,尤其是颞下颌关节紊乱病,是口腔颌面部的常见病和多发病,其病程进展多是渐进性的,早期正确诊断可以使患者得到及时有效的治疗或者避免过度治疗[3]。在临床诊断中,口腔医学影像主要有锥形束CT(CBCT)、磁共振(MR)这两种模态,它们改善了临床决策。这些不同模态的医学影像有着不同的成像原理,所以也有着各自的局限性和优点。例如,通过MR影像可以清晰地看出口腔内软组织的分布,却不能清楚地观察颌骨骨骼信息;CBCT具有更低的辐射剂量、更小的金属伪影以及更准确的扫描结果[4],可以很好地展示颌骨骨骼信息,却在软组织观察方面存在着不足。
-
结合口腔临床的实际需求,为充分发挥各种模态影像辅助的独特优势,避免临床医生反复切换影像,同时增加各模态数据的空间定位一致性,本文提出应用扩张残差注意力网络方法构建颞下颌关节周围区域的多模态融合影像。这包括髁状突皮质骨、髁状突髓质骨、髁状突附丽的肌肉、关节盘、关节窝等。该融合技术为提高口腔颞下颌关节多模态融合影像下的综合诊疗能力提供可行性分析。
-
1 材料和方法
-
1.1 材料
-
使用的数据集是219对口腔CBCT和MR影像,数据皆来自中日友好医院口腔医学中心。按照 CBCT切片划分可分为横断面、矢状面、冠状面3类。所有的CBCT、MR影像像素均为256×256,且是像素强度在0~255范围内的单通道影像。
-
在这219对影像中,随机选择了15对影像作为测试集,以便在训练中不包括这些数据。对于其他数据,进一步按照0.8∶0.2的比例划分为训练数据集和验证数据集,即训练数据集为163对CBCT、MR影像,验证数据集为41对影像。
-
1.2 方法
-
本文使用了一种医学影像融合的端到端框架,整个模型架构如图1所示。使用的融合算法由图像预处理模块、特征提取模块、影像融合模块和影像重建模块4个方面组成。图像预处理模块分为对源图像进行拉普拉斯图像增强和亮度增强两部分:拉普拉斯图像增强用于对原始图像进行锐化处理,使灰度反差增强,从而使模糊的图像变得更加清晰; 亮度增强旨在改善原始图像的亮度。接下来,将已完成预处理的CBCT、MR影像作为特征提取模块的输入,特征提取模块用于提取输入图像(I1、I2)的深层语义特征,然后将其作为特征融合模块的输入,融合规则使用了“softmax特征加权策略”,特征融合模块旨在将 2 个深层语义特征图融合为 1 张特征图,这张特征图包含了来自 2 个原始特征图的特征。此外,该模块还可确定最后的融合特征图中某个像素来自单一的I1、I2或者二者共有的部分。最后影像重建模块根据特征融合模块的输出重建图像,在重建最终融合图像时使用卷积层序列。
-
在训练模型之前,所有的图像都在0~1范围内进行归一化处理[5]。在训练阶段,取出融合模块,只训练特征提取模块和影像重构模块,具体损失函数构造方法见后文。在优化器的选择上,本次实验使用了Adam更新规则,学习率被设置为0.000 1,批量大小设置为 4,epoch 被设置为 100。为了防止过拟合,本实验使用了以下两种方法:一是在训练过程中监控验证数据集的性能,当性能不再提升时提前停止训练;二是添加 L1 正则化来控制网络的复杂度,防止过拟合。图像梯度损失和感知损失的权重平衡因子λ1和λ2这两个超参数设置0.2,且使用第三 VGG块的输出来计算感知损失。
-
1.2.1 图像预处理
-
为改善原始图像的清晰程度以及口腔专家的主观感受,本研究在对 CBCT、MR 影像进行图像特征提取之前对原始图像进行了拉普拉斯增强和亮度增强的预处理。拉普拉斯算子使得图像增强的本质是利用图像的二阶微分对图像进行锐化[6],对 CBCT、MR影像使用亮度增强处理可以改善原始图像亮度较暗的情况(图2)。经过预处理的最终融合图像在观察髁状突附近的肌肉、髁状突髓质骨以及关节盘3个部位相比于未经预处理的融合图像更清晰。
-
图1 医学影像融合模型
-
Figure1 Medical image fusion model
-
图2 经预处理或未经预处理的融合图像对比
-
Figure2 Comparison of fusion images with and without preprocessing
-
本研究使用的拉普拉斯算子是:
-
1.2.2 特征提取模块
-
特征提取模块的结构如图1所示,经过预处理的图像首先输入至具有1×1卷积层的残差注意力网络,从而获得64维的浅层特征图。然后将浅层特征图传递至扩张残差注意力网络[7] (dilated residual at⁃ tention network,DILRAN)以获得深层语义特征。
-
DILRAN 模块的设计原理受到残差注意力机制[8] 和金字塔注意力机制的启发。残差注意力网络架构如图3所示。
-
上方的主干和下方的软掩膜分支的组合按照公式(1)建立残差注意力网络。
-
图3 残差注意力网络
-
Figure3 Residual attention network structure
-
其中,x是来自前一层的特征图,F(·)为输出特征图,S(·)为软掩膜分支函数,T(·)为主干分支函数。
-
在金字塔注意力网络中,为了降低网络复杂度,本研究使用具有较小内核滤波器[9] 的卷积序列取代具有较大内核滤波器的卷积序列。输出特征由公式(2)进行计算。
-
其中,x 是输入特征图,F(·)为输出特征图,Pi (·),为特征金字塔注意力网络中相应的 CBi的参数,C(·)为主干分支函数。
-
残差注意力网络缺点是不能提取和学习深层语义特征,使用金字塔注意力网络[10] 可以有效解决这个问题。金字塔注意力网络结构如图4所示。
-
金字塔注意力网络可能会丢失图像中的局部信息和精细纹理[11]。为解决这一问题,本研究在输入图像的浅层特征上进行扩张卷积[12] 来提取多尺度信息,从而提高模型多尺度特征提取能力。DILRAN 模型结构如图5所示。
-
图4 金字塔注意力网络结构
-
Figure4 Pyramid attention network structure
-
1.2.3 影像融合模块
-
融合策略用于将输入图像的深层特征图融合为一张特征图,在多种融合策略比较之下,使用了 “Softmax特征加权策略”,它表现出了最好的性能。
-
经过特征提取模块,分别从输入图像(I1,I2)中获得 2 个输出特征图 f1、f2,这 2 个输出特征图可用于生成相应的权重图。为了得到权重图,对输出特征图 f1、f2进行 Softmax[13] 运算,计算方法如公式 (3)所示。
-
获得Softmax输出之后,通过矩阵的核范数(‖· ‖*)来计算奇异值的总和。最后通过取核范数的最大加权平均值来获得输出特征图的权重,计算二者核范数的最大加权平均值方法如公式(4)(5)所示。
-
图5 扩张残差注意力网络结构
-
Figure5 Dilated residual attention network structure
-
其中,S(xi j),j{1,2}为输出特征图fj,j{1,2}经过 Softmax函数运算后得到的权重图,ϕ(·)是max()函数,最后的融合特征图由公式(6)计算得到。
-
1.2.4 影像重建模块
-
影像重建模块从融合特征图生成融合完成的影像,由于最后的融合图像是灰度级的,在该模块中,利用具有输出通道64、32、1的3个连续的3×3 卷积层将通道数从64减少到1。影像重建模块的结构如图6所示。
-
1.2.5 损失函数
-
为了使最终的融合图像与原始输入图像尽可能接近,需要最小化从深层语义特征重建的图像与原始输入图像之间的距离。融合图像和输入图像之间的差距通过常见的回归损失函数均方差(mean squared error,MSE)来测量。此外,还添加梯度损失[14] 来对重建影像中的纹理的细节进行建模,并且添加感知损失[15] 来对重建图像和原始输入图像之间的高级语义相似性进行建模。MSE、梯度损失、感知损失函数如公式(7)(8)(9)所示,最终损失函数如公式(10)所示。
-
图6 影像重建模块
-
Figure6 Image reconstruction module
-
其中,M是输入图像的数量,Io为输出图像,‖· ‖F为矩阵 Frobenius 范数;公式(9)中的是来自VGG16[16] 网络中的第i层中的第k个信道,Wi和Hi 是输入图像的长度和宽度,C 为信道数量。公式 (10)中的θ是目标优化网络的权重集,λ1和λ2是梯度损失和感知损失的权重平衡因子。
-
2 结果
-
在图像融合领域评价指标层出不穷,如峰值信噪比(peak signal⁃to⁃noise ratio,PSNR)、结构相似度 (structure similarity,SSIM)、互信息等。本研究选择了PSNR和SSIM作为评价指标。PSNR可用于评价融合影像质量的好坏,其值越大,融合影像的质量越好;SSIM 是用于衡量两幅图像结构相似性的指标。SSIM的范围是0~1,其值越接近1,表示2张图像的相似度越高[17]。
-
CBCT⁃MRI融合影像以及4个部位的标志性图像如图7 所示。原始输入影像是患者左侧闭口位 CBCT、MR矢状位影像。针对以上的4个关键部位,在 CBCT 影像中,可以观察到患者髁状突皮质骨的形态,这是MR影像所缺乏的信息;另一方面,可以通过MR影像观察到患者髁状突附丽的肌肉、髁状突髓质骨、关节盘的形态,这是 MR 影像相对于 CBCT影像独有的特点。
-
由图7F,融合影像清晰地显现了CBCT 影像中髁状突皮质骨的形状;由图7I,通过融合影像可观察到MR影像中所显现的髁状突附丽的肌肉,且可以清晰地反映肌肉纹理;由图7L,MR影像中髁状突髓质骨在融合影像里以黑色线条的姿态清楚地呈现;由图7O,位于髁突上方与颞下颌关节之间的关节盘可在MR影像里显现,CBCT 影像未能显现,而在最终的CBCT⁃MR融合影像中清晰地体现了关节盘的形状,并且相对于MR影像更为明显。
-
针对融合策略的选择,在上述第 1.2.3 节公式 (4)(5)的讨论中,选择了max()函数作为ϕ(·),除此之外,mean()和sum()函数也可作为ϕ(·)函数的备选项。以PSNR和SSIM为基准,使用不同融合策略时的详细定量结果见表1。由此可见,max()函数在 PSNR和SSIM上相对mean()和sum()函数都有较好的表现。
-
本研究使用了 15 对 CBCT、MR 影像作为测试集,从PSNR和SSIM两个方面来评价融合影像的质量,所得的PSNR和SSIM值见表2。PSNR值分布在 10~15 之间,SSIM 值分布在 0.4~0.6 之间,二者处于较为合理的水平。相比其他类别的图像处理,医学影像融合领域的PSNR值略低。如在近年关于阿尔兹海默病患者脑部 CT⁃MR 影像融合[8] 的实验中表明,PSNR难以突破19的上限。
-
3 讨论
-
本研究提出了一种基于残差注意力网络的特征提取模块和多尺度融合策略的口腔医学影像融合网络结构。由于融合策略是固定的,所以在训练和推理阶段不需要更新任何参数,从而可以做到实时的影像融合。在颞下颌关节区域内,融合图像相比单一的CBCT影像有显著的优势:关节盘、髁状突髓质骨以及髁状突附丽的肌肉都可在融合图像中清晰地呈现,这3个部位的形态与MR影像中的形态一致。这就更加便于口腔临床医生对颞下颌关节盘移位等相关疾病的诊断。同时,融合图像相比单一的 MR 影像也有一定的优势:融合图像可反映 CBCT 影像中髁状突皮质骨的形状,这一点为医生对髁状突皮质骨、颞下颌骨关节病所引起的颞下颌关节紊乱疾病诊断提供了便捷。虽然其形状相比原始图像有略微的差异,这是由于MR影像中该部位灰度较高,且收到本研究收集的数据量有限,在进行特征提取以及影像融合时难免会造成一定的灰度吞噬现象。本实验目的在于将CBCT和MR影像中的特征尽可能多地融合于同一张图像,从而避免临床医生在进行颞下颌关节区域相关诊断时,不得不在两种模态下针对骨和关节盘解剖结构反复切换,此融合图像起到简化诊断的流程,提供了一图两用的便携性。虽然最终融合后得到的图像清晰度相比原始的CBCT和MR影像存在略微的差异,但临床医生诊断时受益极大。
-
图7 颞下颌关节区的CBCT影像、MRI影像和融合影像
-
Figure7 CBCT image,MRI image,and fusion images of the temporomandibular joint area
-
在PSNR和SSIM这两个客观评价指标方面,融合图像均处于比较合理的区间。尽管相比其他类别的图像融合,融合图像的PSNR值表现一般,但在医学影像融合领域,融合图像的 PSNR 值属于中上等水平。本研究中,由于患者并非在同一时间进行CBCT 和MR检查,即使处于同一口腔部位,其生理状态也有略微差异,这在一定程度上影响了PSNR。
-
该方法目前仅针对患者闭口位置的影像进行处理,针对开口位置和其他重要部位的影像处理,例如在下颌关节中,将闭口位到最大开口位的髁突以及关节盘的运动分别拟合成一条曲线,从而显现出正确的盘髁关系,仍需进一步积累数据。
-
参考文献
-
[1] LIU F Q,CHEN L H,LU L,et al.Medical image fusion method by using Laplacian pyramid and convolutional sparse representation[J].Concurrency and Computation,2020,32(17):1-13
-
[2] LI B,PENG H,WANG J.A novel fusion method based on dynamic threshold neural P systems and nonsubsampled contourlet transform for multi⁃modality medical images[J].Signal Process,2021,178:107793
-
[3] 王晓娜,何东宁,卢旭光,等.青年人群正常颞下颌关节窝顶厚度CBCT测量分析[J].口腔医学,2022,42(10):911-916
-
[4] 蒋虓,凌辰,王宇丰,等.基于CT/MRI融合医学影像数据的全腰椎三维解剖计算机辅助建模[J].南京医科大学学报(自然科学版),2022,42(12):1710-1715
-
[5] RAMYA R,KUMAR P.High ⁃ performancedeep transfer learning model with batch normalization based on multi⁃ scale feature fusion for tomato plant disease identification and categorization[J].Environ Res Commun,2023,5(12):125015
-
[6] 李晓旭.基于拉普拉斯算法的人脑图像增强技术[J].网络安全技术与应用,2022,22(2):32-33
-
[7] WU Y F,GUO C K,GAO H C,et al.Dilated residual net⁃ works with multi⁃level attention for speaker verification[J].Neurocomputing,2020,412:177-186
-
[8] BALAJI P,ALUVALU R,SAGAR K.Residual attention network based hybrid convolution network model for lung cancer detection[J].Intell Decis Technol,2023,17(4):1475-1488
-
[9] SZEGEDY C,VANHOUCKE V,IOFFE S,et al.Rethink⁃ ing the inception architecture for computer vision[C]//2016 IEEE Conference on Computer Vision and Pattern Recognition(CVPR).Las Vegas,NV,USA.IEEE,2016:2818-2826
-
[10] ZHANG X Q,XIAO Z J,LI X L,et al.Mixed pyramid at⁃ tention network for nuclear cataract classification based on anterior segment OCT images[J].Health Inf Sci Syst,2022,10(1):3
-
[11] FU J,LI W S,DU J,et al.A multiscale residual pyramid attention network for medical image fusion[J].Biomed Signal Process Contr,2021,66:102488
-
[12] LI F Q,ZHOU Y H,CHEN Y L,et al.Multi⁃scale atten⁃ tion ⁃ based lightweight network with dilated convolutions for infrared and visible image fusion[J].Complex Intell Syst,2024,10(1):705-719
-
[13] SVITOV D V,ALYAMKIN S A.Distilling face recogni⁃ tion models trained using margin ⁃ based softmax func⁃ tion[J].Autom Remote Contr,2022,83(10):1517-1526
-
[14] MA C,RAO Y M,CHENG Y A,et al.Structure⁃preserv⁃ ing super resolution with gradient guidance[C]//2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition(CVPR).Seattle,WA,USA.IEEE,2020:7766-7775
-
[15] NIKNEJAD MAZANDARANI F,BABYN P,ALIREZAIE J.Low ⁃ dose CT image denoising with a residual multi ⁃ scale feature fusion convolutional neural network and en⁃ hanced perceptual loss[J].Circuits Syst Signal Process,2024,43(4):2533-2559
-
[16] ALSHEHRI A,ALSAEED D.Breast cancer diagnosis in thermography using pre ⁃trained VGG16 with deep atten⁃ tion mechanisms[J].Symmetry,2023,15(3):582
-
[17] SETIADI D R I M.PSNR vs SSIM:imperceptibility quali⁃ ty assessment for image steganography[J].Multimed Tools Appl,2021,80(6):8423-8444
-
摘要
目的:应用扩张残差注意力网络方法,构建颞下颌关节区多模态融合影像,为提高口腔颞下颌关节多模态融合影像下的综合诊疗能力提供可行性分析。方法:使用扩张残差注意力网络提取磁共振(MR)和锥形束CT(CBCT)的影像特征,使用 “Softmax加权策略”融合特征,再通过影像重建模块将对应的两种模态的影像融合在一起。结果:融合图像可呈现出髁状突皮质骨、髁状突髓质骨、髁状突附丽的肌肉、关节盘4个部位的形态,在峰值信噪比和结构相似度2个评价指标上均表现良好,峰值信噪比范围是10~15,结构相似度范围是0.4~0.6。结论:该方法能做到实时影像融合,最终融合图像可反映出清晰的解剖形态特征,避免多模态影像切换,为口腔专家术前术后临床诊断提供有效的指导。
Abstract
Objective:To explore the feasibility of constructing multimodal fused images of the temporomandibular joint area using the dilated residual attention network method,and to provide a feasibility analysis for improving the comprehensive diagnostic and therapeutic capabilities under multimodal fusion imaging of the oral temporomandibular joint. Methods:The dilated residual attention network was used to extract image features of MR and CBCT,and a“Softmax weighting strategy”to fuse the features. Subsequently,the corresponding images of the two modalities were fused together through an image reconstruction module. Results:The fused images could present the morphology of condylar cortical bone,condylar medullary bone,condylar attached muscles and articular disc. The fused images performed well in terms of peak signal -to - noise ratio and structural similarity index,with peak signal -to - noise ratio ranging from 10 to 15 and structural similarity index ranging from 0.4 to 0.6. Conclusion:This method can achieve real -time image fusion,the final fused image can reflect clear anatomical morphological features,thus avoiding the need for switching between multimodal images and providing effective guidance for dental experts in preoperative and postoperative clinical diagnosis.