论文部分内容阅读
在过去的20年里,自然语言处理和计算机视觉技术都取得了巨大进步。然而文本和图像的数据形态差异,导致这两个学科的发展相对独立。如今,伴随着移动互联网的快速发展,与日俱增的图文组合数据迫切地需要这两个领域的交叉研究,并因此逐渐形成了一个新的研究方向——跨媒体智能。跨媒体智能衍生出了许多新的研究任务和场景,图像描述自动生成是其中一项重要任务,旨在生成自然语言句子描述图像。近期,深度学习在跨媒体智能领域的研究逐渐深入,图像描述自动生成任务取得了长足的进展。基于深度学习方法的核心是建模一个以图像为条件的语言模型,依托的是一个编码解码的模型结构。然而,图像与句子的语义信息不对称是这一模型结构需要面对的重要问题。现有方法一般通过两种方式缓解这一问题:1)抓住图像的主要内容,通过一个句子描述这幅图像的最主要部分;2)通过多次表达,以多个句子描述图像中的更多细节。本文基于这两条线索,在分析现有方法中存在问题的基础上,开展了一系列研究,主要的工作内容和创新点如下:提出了一种带图像门单元的长短期记忆网络为图像生成单句描述。众所周知,一图胜千言,单个句子只能描述图像的部分信息,因此,生成单个句子描述的模型需要对图像的内容进行选择。作者提出的模型提供了 一种面向特征层面的内容选择方法。通过数据驱动的方式,该模型可以自动学习何时打开或关闭图像门单元,对文本特征和图像特征实现交叉过滤,从而达到特征层面的内容选择。不仅如此,针对基线方法的图像特征随时序过程增加而衰减的问题,设计了脉冲前馈机制,将图像特征以一定频率重新输入给模型,以保证图像特征对长句子生成的监督指导作用。在三个数据集中的实验结果表明,该模型对图像描述性能提升1个百分比左右,实体覆盖率提升2个百分比左右。通过对比多种融合图像特征的方式,表明了图像门单元对融合图像和文本特征的有效性。提出了一种面向主题的多句描述自动生成模型。多句描述的重点在于寻找一种内容选择线索,使不同句子描述图像的不同方面,让描述更加丰富。主题是一种重要而常见的内容线索,为此,作者提出以主题为线索,为图像生成面向不同主题的多句描述。模型基于潜在狄利克莱配置从整个描述数据集中挖掘文本在描述图像时的主题信息。通过将主题表示为主题向量,并作为引导信息加到文本生成模块,可以让模型生成描述特定主题内容的句子。实验表明,通过主题驱动的多句描述模型可以更加充分的利用现有数据集(无须额外标注)生成更丰富和有差异性的图像描述。同时,通过对比多种融合主题向量的方法,表明了本文模型中融合主题向量的方式可以获得更好的主题一致性。提出了一种主题引导的注意力驱动的多句描述自动生成改进模型。尽管面向主题的图像描述自动生成模型提供了一条有效的进行多句生成的方法,但从理论和实验分析都表明其存在几个可以进一步提升的方面,本模型从如下两个方面进行改进:1)基于主题的模型使用词袋构建主题,没有学习到句子中的词序信息。本模型使用循环神经网络,可以保留词序信息,再使用高斯混合模型从循环神经网络获取的连续型特征中学习带词序信息的文本主题;2)使用由主题词构造的主题向量来监督生成描述时,容易出现与图像相关度不高的主题词引导生成出与图像不相关的句子。本模型引入了主题引导的注意力机制,通过比较学习,将不同主题在图像上的不同侧重转换为图像区块特征对不同主题的重要程度。因此,可以直接使用主题引导的图像重组特征进行描述生成,有效避免了生成与图像无关的句子描述。实验表明所提出的模型可以获得更好的多句描述性能和更好的主题一致性。设计并实现了一个图像描述自动生成演示系统。作者基于上述提出的模型,实现了一个可为图像自动生成描述的演示系统。作者设计了网络爬虫收集了大规模服装类图像-标题数据用于系统中模型的训练,该数据为服装描述自动生成任务提供了数据和基线方法。系统提供本地上传和摄像头捕获两种图像输入方式,接收服装类和生活类两类图像,可以通过生成单句和多句两种方式描述图像。为此,作者采用三层结构的浏览器/服务器模式,通过用户界面层、逻辑控制层和图像描述模型层为系统的实时性、可扩展性提供了有效的支撑。