视觉Transformer研究的关键问题:现状及展望

被引：72

作者：

田永林 ^{[1
,2
]}

王雨桐 ^{[2
]}

王建功 ^{[2
]}

王晓 ^{[2
,3
]}

王飞跃 ^{[2
,3
]}

机构：

[1] 中国科学技术大学自动化系

[2] 中国科学院自动化研究所复杂系统管理与控制国家重点实验室

[3] 青岛智能产业技术研究院

来源：

自动化学报 | 2022年 / 48卷 / 04期

关键词：

视觉Transformer; 图像分类; 目标检测; 图像分割; 计算机视觉;

D O I：

10.16383/j.aas.c220027

中图分类号：

TP391.41 [];

学科分类号：

080203 ;

摘要：

Transformer所具备的长距离建模能力和并行计算能力使其在自然语言处理领域取得了巨大成功并逐步拓展至计算机视觉等领域.本文以分类任务为切入,介绍了典型视觉Transformer的基本原理和结构,并分析了Transformer与卷积神经网络在连接范围、权重动态性和位置表示能力三方面的区别与联系;同时围绕计算代价、性能提升、训练优化以及结构设计四个方面总结了视觉Transformer研究中的关键问题以及研究进展;并提出了视觉Transformer的一般性框架;然后针对检测和分割两个领域,介绍了视觉Transformer在特征学习、结果产生和真值分配等方面给上层视觉模型设计带来的启发和改变;并对视觉Transformer未来发展方向进行了展望.

引用

页码：957 / 979

页数：23

共 21 条

[11] Region filling and object removal by exemplar-based image inpainting [J].

Criminisi, A ;

Pérez, P ;

Toyama, K .

IEEE TRANSACTIONS ON IMAGE PROCESSING, 2004, 13 (09) :1200-1212

[12] Low-complexity image denoising based on statistical modeling of wavelet coefficients [J].

Mihçak, MK ;

Kozintsev, I ;

Ramchandran, K ;

Moulin, P .

IEEE SIGNAL PROCESSING LETTERS, 1999, 6 (12) :300-303

[13] Long short-term memory [J].

Hochreiter, S ;

Schmidhuber, J .

NEURAL COMPUTATION, 1997, 9 (08) :1735-1780

[14]

Mask R-CNN. He K M,Gkioxari G,Doll′ar P,Girshick R. Proceedings of the 2017 IEEE International Conference on Computer Vision （ICCV） . 2017

[15]

MobileViT:Light-weight,General-purpose,and Mobile-friendly Vision Transformer. Mehta S,Rastegari M. . 2021

[16]

Exploring the limits of weakly supervised pretraining. Mahajan D,Girshick R,Ramanathan V,He K M,Paluri M,Li Y X,et al. Proceedings of the 15th European Conference on Computer Vision （ECCV） . 2018

[17]

Convolutional xformers for vision. Jeevan P,Sethi A. . 2022

[18]

Masked-attention mask transformer for universal image segmentation. Cheng B W,Misra I,Schwing A G,Kirillov A,Girdhar R. . 2021

[19]

Demystifying local vision transformer:Sparse connectivity,weight sharing and dynamic weight. Han Q,Fan Z J,Dai Q,Sun L,Cheng M M,Liu J Y,et al. . 2021

[20]

Unified perceptual parsing for scene understanding. Xiao T T,Liu Y C,Zhou B L,Jiang Y N,Sun J. Proceedings of the15th European Conference on Computer Vision（ECCV） . 2018

← 1 2 3 →