论文部分内容阅读
随着自媒体时代网络上图像的日益激增,使机器准确理解图像内容,并以自然语言的形式反馈给用户的图像文本描述技术,是当前人工智能领域一个重要研究内容。图像文本描述能在图像检索、无人驾驶、智能服务机器人、早期幼儿教育、虚拟现实等方面发挥重大的作用。图像文本描述是一项结合计算机视觉技术与自然语言处理技术的综合任务,其目标是使机器用一句中文语句描述出图像中的主体、图像中的场景以及图像中物体之间的联系以及它们之间的属性和参与的活动。因此如何对图像中内容进行细致精确的描述,并且生成的语句符合人类的阅读习惯,是图像文本描述的主要问题。近年来,对图像进行英文文本描述的方法取得了突破性的进展,但是由于汉语的特殊性,以及数据集的稀缺,图像中文文本描述的研究虽然可以实现,但是存在着生成中文语句的连贯性与可读性不佳,以及生成的语句对图像内容描述错误等问题。针对这些问题,论文主要进行了以下的研究工作。论文采用深度学习方法进行图像中文文本描述的研究,提出一种新的中文文本描述模型(IRRU)。IRRU模型采用深度卷积神经网络(DCNN)结合双层门控循环单元(GRU)网络来完成对RGB图像的编解码以及中文语句的生成,使用AICC图像中文描述数据集来完成对模型的训练。首先是对图像数据集的特征提取,将ImageNet图像分类数据集预训练好的网络模型参数迁移进Inception_ResNet_V2网络,利用该网络对图像数据集进行特征提取。接着对于文本描述集,利用神经网络语言模型建模的方法对标签词向量进行词嵌入矩阵的构建,并基于全连接的方法将提取到的图像特征映射到词嵌入空间,做到特征维数的统一。最后的语言生成模型,基于GRU设计一个双层GRU网络模型,利用图像特征与词嵌入特征对该网络进行训练并得到最终的图像中文文本描述模型。最后在AICC公开的评估集上进行了测试,利用语言模型客观评估指标Perplexity、BLEU以及ROUGE-L将本文所提模型IRRU与英文文本描述模型NIC以及基于NIC模型额外扩充的模型进行对比,实验结果表明本文所提模型可以对图像中的内容进行中文语句描述,且生成语句的质量优于其余两个模型。