发表时间:2023-06-12
近日,武汉大学遥感信息工程学院巫兆聪教授和邓国徽博士在IEEE Transactions on Geoscience and Remote Sensing(IEEE TGRS,SCI中科院分区一区,TOP期刊,影响因子8.125)发表题为“Crisscross-Global Vision Transformers Model for Very High Resolution Aerial Image Semantic Segmentation”(基于交叉-全局视觉Transformer深度网络的高分影像语义分割)的研究成果,邓国徽博士为论文第一作者,巫兆聪教授为通讯作者。
语义分割是对高分辨率遥感影像理解的关键手段之一。随着深度学习的爆发式发展,对于超高分辨率(VHR)影像的分割已经从传统的方法过渡到以卷积神经网络为基本组成单元的深度学习方法。然而,VHR影像因其高度复杂的细节和地理实体在空间上的高度依赖性,让基于CNNs的深度学习方法总是略有不足。因为深度卷积网络固有的局部性限制了感受野的大小,从而限制长距离上下文信息获取能力。为了解决以上问题,本文提出一个新颖的以Transformer为架构的全新深度学习模型,叫作交叉-全局视觉 Transformers (CGVT)模型。CGVT 利用Transformer本身固有的获取长距离上下文信息的能力来解决受限的感受野问题。具体来说,本文重新设计Transformer中的自注意力方法,叫做交叉-全局注意力。它由交叉Transformer 编码块(CC-TEB)和全局压缩Transformer 编码块(GS-TEB)两部分组成。CC-TEB是为了弥补传统自注意力方法设计中计算量过大难以应用与VHR影像分割的缺点,同时进一步增加模型的局部特征表达能力。GS-TEB是为了增加模型的全局表达能力。
图1交叉-全局视觉Transformer框架图
如图1所示,整个网络是一个编码-解码模式。在编码阶段,与普通CNN的结构一样,比如ResNet,共分为4个阶段,在每个阶段产生一组特征图。每个阶段里有块嵌入(patch embedding)模块,位置编码(position embedding)模块和Transformer 编码模块。在解码阶段,是将解码器产生的特征图进行特征融合然后产生分割结果。
尽管Transformer 有着相比于卷积操作有着更强大的长距离上下文信息获取能力,但是,在应用于图像时有着运算量太大的缺点,特别针对分割这类密集预测任务。目前,为了降低这个问题的影响,有一些研究(Liu et al., 2021c , Vaswani et al., 2021)通过将自注意力应用于窗口内减少计算量。但是这种方式也影响了感受野的大小,局部的注意力影响了图像的全局特征表达。所以,受(Chu et al., 2021a , Dong et al., 2021 , Huang et al., 2019)的启发,设计交叉-全局Transformer编码块(CG-TEB),CG-TEB不仅可以在一定程度上减少计算量而且兼顾了全局特征表达。
如图2所示,CG-TEB主要由两个不同的Transformer 编码块组成,分别是交叉Transformer编码块(Crisscross Transformer Encoder Block(CC-TEB))和全局压缩Transformer编码块(Global Squeeze Transformer Encoder Block(GS-TEB))。
图2 (a)CGVT中两个相邻的Transformer块 (b)多头注意力模块详细结构图 (c)缩放点乘注意力详细结构图
本文在三个公开高分遥感影像分割数据集:Vaihingen数据集、Zeebrugge 数据集和LoveDA 数据集上验证我们方法的有效性。在仅仅使用原始影像不是使用额外辅助数据的情况下,本文提出的CGVT 达到相当有竞争力的分割结果。本章提出的方法在Vaihingen数据集和Zeebrugge数据集上是目前最优的方法。在LoveDA数据集语义分割挑战赛上获得了第二名。
Deng G, Wu Z, Xu M, et al. Crisscross-Global Vision Transformers Model for Very-high Resolution Aerial Image Semantic Segmentation[J]. IEEE Transactions on Geoscience and Remote Sensing, 2023. https://ieeexplore.ieee.org/document/10124438
上一条:《一种基于模糊综合评价的气体吸收光谱特性分析方法》研究成果在JSTARS发表 下一条:2022年度总结
【关闭】