本文共 1023 字,大约阅读时间需要 3 分钟。
多模态图像融合(MMIF)旨在整合不同模态图像的互补特征,以提升融合图像的目标显著性和纹理细节。近年来,基于扩散模型的图像融合方法取得了显著进展,但其局部特征感知能力较弱且易引入噪声。针对这些问题,本文提出了一种新颖的扩散 - CNN特征聚合融合(DCAFuse)网络,通过双分支架构有效整合全局信息和局部细节特征。实验结果表明,该方法在红外与可见光图像融合(IVF)和医学图像融合(MIF)等多种任务中优于现有方法。
双分支框架
提出了DCAFuse这一双分支扩散 - CNN框架,融合了DDPM的全局信息建模能力和多尺度卷积核的局部细节特征提取能力,为多模态图像融合提供了新的架构思路。互补特征聚合模块
设计了基于坐标注意力机制的互补特征聚合模块(CFAM),能够感知双分支特征在水平和垂直方向的长距离依赖关系,动态指导特征聚合。新型损失函数与时间步策略
引入余弦散度损失函数和独特的去噪时间步选择策略,进一步提升了双分支特征的互补性。DCAFuse网络利用双分支扩散 - CNN框架进行多模态图像融合。以IVF任务为例,RGB通道的可见光图像与红外图像结合,形成原始输入。
在扩散分支中,通过去噪过程提取全局信息。首先向原始图像引入高斯噪声,随后通过去噪U-Net提取中间特征。噪声图像经过单步去噪过程(如公式1和公式2),捕获原始信息。从去噪U-Net的不同块中提取多尺度中间特征,并通过跨时间步特征聚合器(CTFA)进行细化,最终上采样得到全局特征。
在CNN分支中,使用多尺度卷积核和混合注意力块(MABs)提取局部细节特征。通过多尺度特征聚合器(MSFA),逐步合并上采样后的多尺度特征,生成融合后的局部细节特征。
CFAM通过生成坐标感知注意力图,捕获双分支特征在多个方向上的长距离依赖关系。首先调整通道数,提取方向感知特征图,随后通过卷积层和非线性函数生成坐标感知注意力向量。最终,通过注意力图指导特征聚合,实现全局信息与局部细节的有效融合。
实验验证了DCAFuse网络在多种图像融合任务中的优越性。通过对比实验结果可见,该方法在IVF和MIF任务中均显著优于现有方法。
本文内容为论文学习收获分享,内容由作者负责。如有任何问题,请及时与作者联系。
转载地址:http://evrfk.baihongyu.com/