论文部分内容阅读
随着计算机网络的普及和多媒体信息技术的快速发展,社交媒体早已成为人们生活不可或缺的一部分。网络中流传的海量多媒体数据,意味着人类社会进入了大数据时代。在这样的背景下,图像和视频因其能够便捷的记录和丰富我们的日常生活,已经成为目前最为流行的数据形式。在当前火热的人工智能领域,对于如何让计算机更像人一样的具备思考能力,让计算机理解并自动的用自然语言描述图像和视频等视觉信息的研究越来越引起人们的关注。视觉信息描述作为其中的代表性研究,在多媒体信息分析,人机交互,帮助视力障碍人群等方面有很多潜在应用价值。目前,很多国内外的研究学者在图像和视频等视觉信息自然语言描述领域展开大量研究,但是在视频描述方面,如何精确的获取视频中动态的视觉特征和语义信息仍是目前的研究难题。近年来,编码-解码框架被广泛应用在视觉信息描述任务中,其中因为时域注意力机制能够很好的揭示视觉信息和描述语句单词之间的关系而成为目前相关研究的主要方法。但是对于视频而言,大多数方法在获取精确的视觉特征和语义信息方面仍存在不足之处。本文从获取精确的视觉特征和更好的运用语义信息和视觉信息的动态关系两个方面提出了两个用于视频自然语言描述的方法:1)基于细粒度时空注意力的模型:通过对视频提取细粒度的视觉信息,获取目标区域级别的精确视觉特征,实现硬性空间注意力,再通过基于时域注意力机制的LSTM网络,保证描述语句的单词能够准确的和相关视觉特征对应,提高描述语句的准确性;2)基于视觉和语义的双流注意力模型:通过同时对视频提取视觉特征和语义特征,采用基于时域注意力机制的LSTM网络,实现对多模态信息的动态选择,进而提高描述语句的准确性。本文对提出的模型在两个公开数据集MSVD和MSR-VTT上进行了大量的实验,通过与其他方法的对比验证了我们所提出方法的有效性。