【摘 要】
:
图像作为一种常见信息载体,因获取方便且传播便捷而被广泛使用。随着互联网和移动设备的发展,图像数据呈现出爆炸式的增长。因此,对于图像的自动理解和高效利用成为一个亟待解决的重要问题。图像描述生成是解决该问题的核心和关键,旨在让计算机理解图像内容,并将图中场景和语义信息以自然语言的形式进行描述。它是涉及计算机视觉和自然语言处理学科的极具挑战性的交叉难点,已成为人工智能领域的研究热点。但是由于图像内容丰富
论文部分内容阅读
图像作为一种常见信息载体,因获取方便且传播便捷而被广泛使用。随着互联网和移动设备的发展,图像数据呈现出爆炸式的增长。因此,对于图像的自动理解和高效利用成为一个亟待解决的重要问题。图像描述生成是解决该问题的核心和关键,旨在让计算机理解图像内容,并将图中场景和语义信息以自然语言的形式进行描述。它是涉及计算机视觉和自然语言处理学科的极具挑战性的交叉难点,已成为人工智能领域的研究热点。但是由于图像内容丰富、目标关系复杂以及语言表述多样,图像描述生成还存在众多亟需解决的问题。本文从图像文本信息的跨模态融合、图像描述的类别均衡化、图像区域的关联性分析以及图像多线索信息的利用等角度,构建图像描述生成模型,提升自动读图的准确性,主要研究成果如下:(1)提出一种基于图像文本融合特征和场景概率的图像描述生成方法。图像描述生成重要的步骤是融合图像和文字两种模态的信息。现阶段主要采用级联或按位相加等简单方式融合图文特征,所得融合特征不能充分表征图像文本两种不同模态信息的语义关联性。因此,本文设计了一种跨模态特征融合方法并应用于图像描述生成。首先,使用深度卷积网络提取图像特征。然后,设计基于频率统计算法和卷积定理的图像文本跨模态融合模块,计算各时刻的图像文本融合特征。然后,基于长短时记忆网络的注意力模块利用融合特征和生成模块的历史信息,为图像视觉特征分配恰当的权重。最后,将加权的图像视觉特征和注意力长短时记忆网络的隐藏层状态作为文本生成模块的输入,生成图像描述。另外,为解决图像描述生成的类别不平衡问题,提出场景概率从图像角度衡量描述是否常见,构建基于场景概率的改进交叉熵损失函数。实验结果表明,本方法可有效挖掘图像文本特征的潜在关联性并加强不常见图像的训练,图像描述性能明显提升。(2)提出一种基于关系理解的图像描述生成方法。利用Faster R-CNN网络检测图像显著性区域并提取这些区域的视觉特征和位置坐标。设计关系理解模块,利用显著性区域位置信息和视觉特征,在不同的关系子空间计算关系特征。将关系特征和已生成的文本作为注意力模块的输入,为显著性区域视觉特征分配合适的权重。文本生成模块利用关系特征和带权视觉特征,时序地生成图像描述。关系理解模块利用图像各区域语义和内容相关性分析它们的潜在联系,使得描述生成网络可准确理解主体复杂或场景不明确的图像。通过与其他基于深度学习特征的图像描述生成方法的实验结果对比可知,本方法在各个客观指标上性能均明显提升。(3)提出一种基于多线索信息的图像描述生成方法。为高效利用图像信息,构建多线索特征提取模块和多阶段特征融合模块。首先,提取图像显著性区域的视觉、位置和物体类别信息,构成多线索特征对。随后,设计多阶段特征融合模块,分两阶段计算多线索融合特征。在第一阶段中,设计位置类别感知注意力模块,利用已生成文本信息和多线索特征为物体类别和位置特征分配适当的权重;在第二阶段中,构建融合模块,利用感知注意力模块的输出和图像视觉特征共同计算多线索融合特征。最后,将融合特征输入文本生成模块,时序地生成图像描述。在MSCOCO 2014数据集上的实验结果表明,本方法在各个评价准则上均取得较好的结果,它可生成位置、类别等细节准确的图像描述。本文对图像描述生成的多个子问题进行研究:设计图像文本跨模态融合模块,加强生成阶段图文信息的交互;构建基于场景概率的改进交叉熵损失函数,解决图像描述的类别不均衡问题;设计关系理解模块,分析图像显著性区域的语义关联性;提取图像的多线索信息并设计多阶段特征融合模块,有效表征图像内容。在MSCOCO 2014数据集上的实验结果表明,本文提出的图像描述生成方法在各评价指标上性能均明显提升,为该技术实现工业化应用奠定了基础。
其他文献
Petri网作为一种高效的数学建模和分析工具,因其在模型构建、状态分析和死锁控制方面的诸多优势,被广泛应用于自动制造系统的理论与应用研究中。系统因资源分配不当而产生死锁状态,从而导致宕机。为使自动制造系统平稳安全运行,系统中的死锁问题必须得到妥善解决。为了处理自动制造系统的死锁问题,现有的研究已给出了很多基于结构分析或可达状态空间的分析方法与控制策略。在实际生产中,对于大规模的网模型,不可避免存在
虽然全面预算管理在国内外企业中得到广泛运用,但是由于社会和市场环境的不断发展变化,全面预算管理并未能够取得如预期那样良好的效果,而是逐渐出现了一些问题,其中非常显著的一个问题就是预算松弛。预算松弛问题如果不能得到很好的解决和控制,预算管理就会流于形式。不仅浪费企业的资源,降低企业运作的效率,同时也不利于企业的长期发展和战略的实现。由此可见,如果未能缓解企业存在的预算松弛,就不能最大程度发挥预算管理
随着团队工作方式的日益盛行,组织的竞争由吸引高绩效、高创造力个体的博弈,转变为打造高绩效、高创新团队的比拼。越来越多的企业希望能通过吸纳具有差异化知识、技能、经验的人才的方式,为团队创新带来多样化的信息输入与认知视角,改善团队在创新方面的能力和表现。知识多样性描述的是知识在团队层面聚合的特征,它是指团队成员在知识、技能、想法、信息等方面的差异程度。相较于人口统计特征多样性,知识多样性是团队的深层多
医药流通行业是国家医疗卫生事业的重要组成部分,是关系人们健康和生活质量的重要行业。随着国民经济的高速发展、医疗卫生支出的逐年增加,我国医药市场规模一直保持着快速增长;加上医疗保险机制的完善、人们生活水平的提高以及居民健康意识的增强,医药消费空间增大,这些都给医药流通行业的发展带来了机遇。未来几年在相关政策推动下,医药流通行业竞争将更加激烈。全国性药品流通企业跨区域并购、重组的趋势进一步加快,区域性
如今,基于NAND Flash的固态硬盘(SSD)以低延迟、低功耗、高并发等特点使其在商品和商业领域中得到广泛的应用。因2x nm工艺技术的发展,NAND Flash的存储容量正在迅速的增涨,
工业在我国国民经济中占有重要的地位,当前,我国经济正由高速增长阶段向高质量发展阶段转变,推动工业高质量发展成为实现我国经济高质量发展的关键环节。本文首先从高质量发展的内涵以及高质量发展的评价指标体系两个方面对国内外相关文献进行了总结归纳;然后在明确了工业高质量发展内涵的基础上,按照构建评价指标体系的全面性、系统性、可操作性和可比性四大基本原则,以五大发展理念为指导,从创新、协调、绿色、开放和共享五
随着我国加快建设“海洋强国”,推进“一带一路”建设的国家战略实施,将在南海地区建设更多的海上油气开采平台和海底基础设施。而我国东南沿海地区位于环太平洋地震带上,地震时有发生,强烈的地震作用会导致海底边坡失稳,从而造成海上油气平台、海底隧道、海底电缆等海洋工程设施破坏。目前为止,由于缺乏对海底地震的观测记录,对海底地基场地,尤其是海底局部场地的地震响应研究甚少。基于此背景。本文采用数值模拟方法,对海
随着移动通信需求的快速增长,可见光通信(Visible Light Communications,VLC)凭借其高宽带,高速度和机密性等优点被认为是有前途的室内无线访问技术。为了进一步提升可见光通信系统的传输速率,光学正交频分复用(Optical Orthogonal Frequency Division Multiplexing,OOFDM)被认为是一种比单载波方案更适合VLC的调制方案,因为O
中华优秀传统文化是中国人民思想观念、风俗习惯、生活方式和情感样式的集中表达。传统龙文化在中国上下五千年文化传承中具有举足轻重的地位。本文以互联网为研究媒介开展以中国龙纹图案为核心的网络数据集构建,论文的主要研究内容包括:(1)龙纹图案数据集构建。首先构建了中华文化遗产标本库入库模型作为图像能否进入标本库的标准,利用网络爬虫技术获取候选龙纹图像,对图像进行前背景分离以排除由于采集标准不同造成的图像背
随着科技的发展与需求的扩大,海洋以及水下世界越来越受到人们的重视。为了充分了解探索水下世界,开展各项水下作业与研究,必须依赖于全面的水下场景各类信息。而图像视频作