多模态图像融合：DCAFuse网络的创新与应用

摘要

多模态图像融合（MMIF）旨在整合不同模态图像的互补特征，以提升融合图像的目标显著性和纹理细节。近年来，基于扩散模型的图像融合方法取得了显著进展，但其局部特征感知能力较弱且易引入噪声。针对这些问题，本文提出了一种新颖的扩散 - CNN特征聚合融合（DCAFuse）网络，通过双分支架构有效整合全局信息和局部细节特征。实验结果表明，该方法在红外与可见光图像融合（IVF）和医学图像融合（MIF）等多种任务中优于现有方法。

论文创新点

双分支框架

提出了DCAFuse这一双分支扩散 - CNN框架，融合了DDPM的全局信息建模能力和多尺度卷积核的局部细节特征提取能力，为多模态图像融合提供了新的架构思路。

互补特征聚合模块

设计了基于坐标注意力机制的互补特征聚合模块（CFAM），能够感知双分支特征在水平和垂直方向的长距离依赖关系，动态指导特征聚合。

新型损失函数与时间步策略

引入余弦散度损失函数和独特的去噪时间步选择策略，进一步提升了双分支特征的互补性。

方法

3.1 概述

DCAFuse网络利用双分支扩散 - CNN框架进行多模态图像融合。以IVF任务为例，RGB通道的可见光图像与红外图像结合，形成原始输入。

3.2 全局信息建模

在扩散分支中，通过去噪过程提取全局信息。首先向原始图像引入高斯噪声，随后通过去噪U-Net提取中间特征。噪声图像经过单步去噪过程（如公式1和公式2），捕获原始信息。从去噪U-Net的不同块中提取多尺度中间特征，并通过跨时间步特征聚合器（CTFA）进行细化，最终上采样得到全局特征。

3.3 局部细节特征提取

在CNN分支中，使用多尺度卷积核和混合注意力块（MABs）提取局部细节特征。通过多尺度特征聚合器（MSFA），逐步合并上采样后的多尺度特征，生成融合后的局部细节特征。

3.4 互补特征聚合模块

CFAM通过生成坐标感知注意力图，捕获双分支特征在多个方向上的长距离依赖关系。首先调整通道数，提取方向感知特征图，随后通过卷积层和非线性函数生成坐标感知注意力向量。最终，通过注意力图指导特征聚合，实现全局信息与局部细节的有效融合。

实验

实验验证了DCAFuse网络在多种图像融合任务中的优越性。通过对比实验结果可见，该方法在IVF和MIF任务中均显著优于现有方法。

声明

本文内容为论文学习收获分享，内容由作者负责。如有任何问题，请及时与作者联系。

转载地址：http://evrfk.baihongyu.com/

你可能感兴趣的文章