论文部分内容阅读
随着互联网技术的快速发展,人与人之间的通信方式从形式单一的语音文本,扩展到内容丰富多样的视频图像上来,视频图像的大小及数量急剧增加。随着智能设备进入千家万户,人机交互的需求日益增加,图像及视频内容的自动检索及理解,已经成为目前人工智能和机器学习领域的研究热点之一。图像描述生成将图像处理任务和自然语言生成任务结合起来,通过建立图像特征提取模型和相对应的语言模型,可以自动识别图像内容,并将图像转换为自然语言信息。通过使用计算机,图像描述生成能够快速并高效地处理海量图像数据,其在与人机交互有关的各个领域有着广泛的应用前景。图像描述生成在计算机视觉及自然语言处理的基础上,通过计算机视觉提取图像特征,使用自然语言处理建立语言模型,最终将图像与文字联系在一起。与传统的方法相比,使用深度学习的图像描述算法,通过自动地从海量的图像及文本数据中学习图像和文本的特征,将图像特征和文本特征一一对应起来,可以高效完成图像描述生成任务。目前,图像描述任务的研究虽然取得了一些成果,然而,在生成的描述文本方面,存在着内容不丰富,对图像细节的描写不够精确完整等缺点。针对以上存在的问题,本文从图像特征和语言模型两个方面出发,构建基于多注意力的图像描述生成算法。首先使用目标检测模型提取图像粗粒度和细粒度的特征,获得更为丰富的图像语义及细节信息,增加了所提取图像特征的信息量。其次,在图像描述的语言模型中,加入多注意力机制来充分利用图像在不同粒度上的特征。最后,构建了多层次的语言模型,通过在语言模型中引入残差连接机制,使用高速通路在不同层之间传输数据,提高了模型的运算效率与本文算法最终的图像描述效果。结合以上内容,本文算法在图像整体语义表示的基础上,增加了图像的细节表达能力。经过实验对比分析,本文提出的算法,有效提升了图像描述生成任务的效果和准确率。本文研究工作主要包括以下几点:(1)针对传统图像描述模型对图像细节把握不足的问题,提出了一种多层次的图像特征提取方法。该方法利用目标检测模型中不同的残差层,将图像转化为大小不同的多维向量。根据残差层位置的不同,本文将以上从残差层中得到的多维向量分别作为图像的粗粒度特征和细粒度特征。最终,通过以上方法,提高了图像特征的丰富程度;(2)针对传统图像描述模型对图像特征使用不足的问题,本文使用长短时记忆网络建立语言模型,构建与图像特征一一对应的注意力模块,最终建立起了兼顾图像整体语义和图像细节的图像描述生成算法。通过将图像注意力机制与语言生成模型相结合,共同指导图像描述文本的生成。(3)针对深度神经网络存在的模型复杂度高,以及由此产生的梯度消失问题,本文在语言模型中引入了残差连接机制,通过使用高速通路在不同层之间传输数据,提升了模型图像描述的最终效果。