图像描述技术综述

被引：10

作者：

苗益 ^{[1
]}

赵增顺 ^{[1
,2
,3
]}

杨雨露 ^{[1
]}

徐宁 ^{[1
]}

杨皓然 ^{[1
]}

孙骞 ^{[1
]}

机构：

[1] 山东科技大学电子信息工程学院

[2] 山东大学控制科学与工程学院

[3] 佛罗里达大学电子与计算机工程系

来源：

计算机科学 | 2020年 / 47卷 / 12期

基金：

中国博士后科学基金;

关键词：

图像处理; 图像描述; 深度学习; 计算机视觉; 自然语言处理;

D O I：

暂无

中图分类号：

TP391.41 [];

学科分类号：

080203 ;

摘要：

图像描述技术,就是以图像为输入,通过数学模型和计算使计算机输出对应图像的自然语言描述文字,使计算机拥有"看图说话"的能力,是图像处理领域中继图像识别、图像分割和目标跟踪之后的又一新型任务。文中以图像描述技术的发展历程为主线,对图像描述任务的方法、评价指标和常用数据集进行了详细的综述。针对图像描述任务的技术方法,总结了基于模板、检索和深度学习的图像描述生成方法,重点介绍了基于深度学习的图像描述的多种方法,并对不同方法的实验结果进行了总结和讨论;详细介绍了图像描述任务的实验结果评价指标及其计算方法和该任务中常用的数据集;最后提出了该任务现有的问题和未来的发展方向。

引用

页码：149 / 160

页数：12

共 21 条

[1] 生成对抗网络理论框架、衍生模型与应用最新进展 [J].

赵增顺 ;

高寒旭 ;

孙骞 ;

滕升华 ;

常发亮 ;

Dapeng Oliver Wu .

小型微型计算机系统, 2018, 39 (12) :2602-2606

[2] 基于概念级语义的图像描述与识别 [J].

任越美 ;

程显毅 ;

李小燕 ;

谢玉宇 .

计算机科学, 2008, (07) :206-212

[3]

Wider or Deeper: Revisiting the ResNet Model for Visual Recognition[J] . Zifeng Wu,Chunhua Shen,Anton van den Hengel.Pattern Recognition . 2019

[4]

Image Annotation using Multi-view Non-negative Matrix Factorization with Different Number of Basis Vectors[J] . Roya Rad,Mansour Jamzad.Journal of Visual Communication and Image Represe . 2017

[5]

Visual Genome: Connecting Language and Vision Using Crowdsourced Dense Image Annotations[J] . Ranjay Krishna,Yuke Zhu,Oliver Groth,Justin Johnson,Kenji Hata,Joshua Kravitz,Stephanie Chen,Yannis Kalantidis,Li-Jia Li,David A. Shamma,Michael S. Bernstein,Li Fei-Fei.International Journal of Computer Vision . 2017 (1)

[6] Reinforcement Learning in Robust Markov Decision Processes [J].