【摘 要】
:
图像自动标注的目的是自动生成描述当前图像的文本。在过去几年中,它已经成为人们越来越感兴趣的话题,图像自动标注技术可以增强搜索引擎的图像搜索能力,辅助视觉障碍人士更好的了解周围环境,或者通过社交媒体平台解释其共享图像,用来识别客户的兴趣从而改善在线营销和客户细分任务,总而言之,图像自动标注技术在各个方面都发挥着重要的作用。这一任务是综合了机器视觉领域和自然语言处理领域的交叉性研究,对多模态交互的研究
论文部分内容阅读
图像自动标注的目的是自动生成描述当前图像的文本。在过去几年中,它已经成为人们越来越感兴趣的话题,图像自动标注技术可以增强搜索引擎的图像搜索能力,辅助视觉障碍人士更好的了解周围环境,或者通过社交媒体平台解释其共享图像,用来识别客户的兴趣从而改善在线营销和客户细分任务,总而言之,图像自动标注技术在各个方面都发挥着重要的作用。这一任务是综合了机器视觉领域和自然语言处理领域的交叉性研究,对多模态交互的研究也做出了重要贡献。但是,图像自动标注技术想要生成和人们一样的流畅的自然语言描述,不仅需要对图像进行对象的识别,还要理解物体的相互关系,包括每个对象的动作、形态,并根据这些信息,转换成文字描述,因此这是一项非常复杂且具有挑战的任务。传统的图像自动标注方法主要是基于生成的方法和基于检索的方法,这些方式的局限性在于整个模型过于依赖于前期的图像特征处理,忽略了语言模型生成文本的过程,因而整个模型的输出结果不尽人意。近年来,随着基于编码器-解码器的深度学习模型在图像自动标注领域的应用,这一任务得到了越来越突出的成果。本文主要围绕编码器-解码器模型在图像自动标注任务上如何被有效的利用展开研究,重点关注深度卷积神经网络在图像自动标注中有关图像特征提取的能力、词向量模型的处理对于语言生成模型的影响、以及注意力机制对于整个模型的优化三方面的内容,主要工作如下:1)图像自动标注技术首先需要依据图像特征的提取,如果选择的特征缺乏一定的代表性那么很难区分图像中的各个对象以及其相互关系。使用传统的流程来进行图像处理的方法,目前比较好的一个方式就是使用多种特征提取器,通过组合他们达到一种更好的特征提取效果,这种方式需要很多启发性的规则和人为的根据不同的领域来调整参数,本文针对这个问题,提出了基于迁移学习的深度卷积神经网络的学习方式。2)文本表示可以简单分为词表示和序列标识。自然语言处理领域一直以Word2Vec和Glove为代表的词嵌入技术作为将单个单词表示为计算机可以处理的向量表示的一种处理方式。但是词嵌入将多义词合并为单一的表示,因此并不精确,随着深度学习的兴起,越来越多的文本表示模型被提出,如:ELMo,Open AI GPT以及BERT。这些模型都是在预训练阶段先使用深度网络模型,通过无监督的学习方式得到自然语言中的语义信息,然后再经过微调阶段利用迁移学习将模型部署到下游任务中去。本文针对多义词的问题,提出一种基于Bert文本训练模型改进的图像自动标注技术。3)基于编码器-解码器的模型是解决图像自动标注的主要方法,这种方法结构简单,但是往往难以生成高质量的句子,每次训练输入全局的图像信息,也会使模型的训练速度变慢。本文提出了基于注意力机制的双向引导的图像自动标注模型,在编码器阶段引入了文本引导图像特征抽取模块,解码阶段引入了图像引导文本生成的模块,大大提高了图像自动标注语句的描述准确度。
其他文献
作为一种无监督的学习方式,聚类分析在无标记样本的条件下将数据对象进行分组,挖掘数据的潜在结构,是数据分析的有效工具。在现实应用的待处理数据中,大多是同时包含数值属性和分类属性的混合属性数据,此外,这些数据往往含有大量不确定知识,处于类簇交叉区域,具有亦此亦彼的特点,不能简单地将其归入某一类中,使用传统聚类算法处理这些数据时,会导致聚类结果有较大的误差,因此,结合能够处理不确定信息的理论方法研究混合
大规模多输入多输出(Multiple-Input Multiple-Output,MIMO)技术由于具有显著提高频谱效率和能量效率的潜力,被视为5G关键技术之一。为了获得大规模MIMO的全部增益,基站需要准确及时的信道状态信息(Channel State Information,CSI)。随着天线数大幅增加,CSI的获取成为制约大规模MIMO系统性能的核心问题。为了应对这一挑战,本文基于压缩感知(
新疆地处内陆干旱地区,“荒漠绿洲、灌溉农业”是其显著特点,水资源短缺是制约新疆经济社会可持续发展的主要因素之一。平原水库具有距离灌区近,灌溉供水管理方便的优点,在灌
石墨烯自2004年被发现以来,因其优异的电气及机械性能而备受关注。近年来,为了寻求石墨烯的新特性,使用高能粒子或者团簇来轰击石墨烯已经成为理论上探索石墨烯性质的一种常见的方法。本文采用分子动力学方法,对C60在不同的条件下轰击石墨烯的过程进行了模拟。模拟内容主要包括三个方面,分别是C60以不同的速度垂直轰击石墨烯、C60以不同的初始角度轰击石墨烯和多个C60在石墨烯表面沉积。在C60以不同的速度垂
石油资源流动已成为各国保证石油供需安全,实现石油资源优化配置备受关注的途径。探究世界石油资源流动网络的演变,对缓解国家间石油资源供需矛盾,保障不同国家间石油资源供
随着计算机技术的高速发展,互联网的普及程度越来越高,用户通过搜索从互联网上获取信息的诉求更加强烈。但是搜索的安全保障,搜索记录的持久化存储,高并发请求时的快速响应都是亟待解决的问题,这带来了对搜索管理的巨大挑战。本文旨在以B/S结构为基础,辅以Vue、SSM等前后端技术,设计与实现一个面向千万级别数据的搜索管理系统。本文设计工单系统,提供工单入库、工单审核、工单流转、工单展示等功能支撑系统的审批流
互联网提供了大量的数据来源,其中一大部分是以文本形式存在的,如何充分利用这些文本数据面临了很多挑战。招标公告就是这样一种数据,广泛存在于国内各级政府采购网站中。招标公告通常由标题和正文构成,虽然标题说明了所要招标的项目名称,但同时也含有项目单位、项目地点等很多其它辅助内容。因此,面对每天上万条新增数据记录的情况,识别提取出更为简洁的项目名称对于提升数据查询和数据分析能力是有帮助的。深度学习是处理文
差分演化算法是一种随机搜索算法,适用于求解利用常规数学规划方法所无法求解的复杂环境中的优化问题。目前,差分演化算法已经在许多领域得到了应用,如神经网络、化工、信号处理等。虽然DE算法得到了广泛的应用,但是算法本身仍存在一些缺点,如陷入局部收敛、适应度函数评估次数一定时算法不能取得理想的最优解等。因此为了提高差分演化算法的性能,本文对该算法进行了优化改进,创新点如下:(1)提出多维尺度分析的差分演化
随着互联网技术的发展,互联网的应用场景越来越多,在工业控制领域,越来越多的工业控制系统连接入互联网中,使得工业控制网络暴露在许多攻击者角色下,而工业控制系统在设计之初并未考虑到其在互联网的应用场景,因此大多数工业控制系统并没有设置针对互联网攻击的安全防护措施,大量的工业控制系统信息安全问题暴露出来并被互联网上恶意攻击者恶意利用。随着工业4.0、工业互联网等新兴技术、业态的产生,工业化与信息化的深度
当前车载通信网络的高速建设和众多车联网应用的逐渐落地,促进了对于车载信号的广域覆盖以及可靠性等技术需求的增长。在车载通信的实际场景中,空地协同的车载异构网络架构实现了对于现有通信技术有效的优势互补。本论文依靠该技术架构,针对车载通信的两大场景:车辆到车辆(Vehicle to Vehicle,V2V)以及与车辆到基础设施(Vehicle to Infrastructure,V2I),根据实际测量得