论文部分内容阅读
近些年来伴随着网络上视频和图像的大量的生成,怎样能够让用户更加轻松和便捷的了解这些大量的数据成为了一个目前很大的问题。对于用户来说,最直接的方法就是用文本的信息将视频或者图片的信息进行一个简单的规纳和总结。而对于计算机来说,如果能够用完整的语句来描述视频图像中的具体内容,或者是能够回答出针对图片的一个相关的问题,我们才能说计算机是真正的理解了这个图像视频。基于以上所述,怎样将计算机视觉中的内容与语言文本的内容很好的连接起来是我们在计算机视频领域的一个重大的问题。越来越多的研究人员在这方面做了大量的工作。在此之上的研究一直保持着持续的进步,但是同时仍然有很多关键性的问题没有被解决。在本文中我们主要从几个不同的角度来探讨计算机视频和语言之间的关联。首先,直接的从视频或者图片生成一个描述性的语句是这之中非常关键的问题之一。目前来说,这个问题还有许多的限制,特别是针对视频文本的生成。已有的视频描述文本的数据并不足以支持生成良好的描述性语句,并且现在的方法大多都没有完全的考虑视频图像本身很多结构化的信息,只是单纯的把它们做为一个特征集合,失去了很多视频本质的结构信息。此外,给出一个特定的视频或者图像,对于给出的一个相关性问题,如何让计算机自动生成一个正确的回答同样是另一个关键性的问题。在这之中,最重要的解决的线索是什么呢?最后,我们怎么样才能很好有机的将图像视频和文本用一种最为直接明显的方式联合起来,从而展示给用户最感兴越的部分也是我们希望解决的一步。基于以上的观察与分析,这篇论文做了详实的在计算机视觉和文本之间的讨论与探究,主要有以下几个重要的进展:1.我们建立了一个新的生成视频描述文本的数据集。通过3,400小时个人工标注的工时,我们得到了大量丰富,标注好有组织性的视频和文本的数据组以便于算法的优化与提高。这个数据集包含了最为广泛的视频的种类和目前为止最大的标注句子的集合。我们在这之上组了丰富的基于RNN以及其变种的实验并进行了分析和比较。截至写作之时,我们的数据集已经有全世界超过100个单位在使用,论文引用量超过了 120。2.为了更好地探讨视频结构的特征在计算机视觉和文本之间的关系,我们进一步提出一种全新的多模态注意力模型机制MA-LSTM来生成视频文本。我们提出的MA-LSTM的方法可以充分的将视频的多模态的信息考虑进去,并且采用了多层的注意力模型机制来选择最有用的时间域的元素和模态。另外,我们还提出了一种child-sum的多模态融合单元将不同模态之间的信息合并形成更好的视频特征表达。3.通过增加基于图像的物体的具体检测和属性的识别,我们将faster-rcnn的网络结构加了我们的视频图像文本生成和视觉对话问答的任务当中做为我们研究的另一个重要部分。在加人物体和其属性的信息于其中之后,系统能够更好的理解图像中包括的各个部分让其对图像有一个更加深入的理解,这使得我们的视频图像文本生成和视觉对话问答都有了进一步的效果上的提高。4.为了更好地结合视觉内容和文本,给用户以更良好的体验,我们提出了一个新的系统模型方法用来建立了一个生动的故事板来展示事件的发生以及相关的图片。做为一个具体的应用,我们从搜索引擎的日志中充分的挖掘和归纳出各个社交事件,并且采用我们的算法得到与其最为匹配的图片来做为我们的故事板的部分。并且,我们还做了真实的手机上的应用来将这一结合更好的展现出来。