【摘 要】
:
近年来,随着深度学习技术的深入研究,计算机视觉和自然语言处理领域取得了非常大的进展。在计算机视觉方面,图像分类、物体检测、动作识别、视频分类等领域在一些公开的数据
论文部分内容阅读
近年来,随着深度学习技术的深入研究,计算机视觉和自然语言处理领域取得了非常大的进展。在计算机视觉方面,图像分类、物体检测、动作识别、视频分类等领域在一些公开的数据集上取得了很好的性能;在自然语言处理方面,文本分类、语言模型、语音识别、机器翻译等领域也取得了不错的进展。人工智能时代的真正到来需要机器具有认知能力,具有认知能力的机器不仅仅是单一地在计算机视觉或者自然语言处理领域做到极致,它必须将二者结合起来,使得机器不但能够很好的识别图片或视频中的视觉内容,同时还要具备识别自然语言的能力。近年来,视频问答引起了人们的广泛关注,它将计算机视觉和自然语言处理联系到一起,能够根据视频的视觉内容来回答相关的问题。由于视频数据的复杂性,视频问答的相关研究还比较少,与图像问答相比,视频问答更加具有挑战性。视频问答需要探索一系列的视频帧来回答问题,而且一个视频帧中的大部分区域是与问题不相关的,这部分区域特征相当于是噪声,如何从视频帧中找到与问题相关的区域,对不相关的区域特征进行过滤,同时将视频特征与文本特征进行融合,探索视频的时序信息等都是需要解决的问题。针对这些问题,本文提出了遗忘记忆网络来解决视频问答任务。对于从视频中截取的视频帧序列,本文使用卷积神经网络来提取视频帧特征,然后使用遗忘记忆网络根据视频的相关问题,对视频帧特征进行过滤,选择出与问题相关的区域特征,遗忘掉不相关的区域特征。对于含有相关文本描述的视频片段,分别使用遗忘记忆网络对视频和文本特征进行保留和遗忘,然后再将二者进行融合,再根据融合的视频文本特征来解决视频问答。本文还在遗忘记忆网络的基础上进行了改进,在使用遗忘记忆网络得到视频或视频文本融合特征后,将它们按照视频帧的时间序列输入到一个门控循环单元中,使用最后一个时刻的输出来表示视频特征,进一步来探索视频帧的时序动态信息。本文提出的方法在MovieQA和TACoS数据集上取得了很好的效果。
其他文献
【正】如今,高端游戏鼠标的发展似乎已经遭遇瓶颈,在沉闷的市场中,"血手幽灵"的出现却开创了一条新的思路:游戏鼠标再也不单纯是硬件产品,它是一个软件和硬件结合的系统。这
随着云计算、大数据、人工智能等新兴技术的不断涌现、发展和成熟,已经从金融信息化转变为信息化金融,“无科技,不金融”已成为业界共识。科技职能的前移,IT参与到业务与产品
信息素质包括信息意识、信息知识和信息能力三个基本方面.在信息社会,信息素质已经成为创新人才必备的基本素质之一.高校图书馆作为信息中心,是大学生信息素质教育的主要基地
【摘 要】《语文课程标准》就7~9年级阅读提出要求:“诵读古代诗词,有意识地在积累、感悟和运用中提高自己的欣赏品位和审美情趣。”因而,初中语文古代诗词教学的成败既关系到初中生语文素质的提高,又关系到初中生中考的成绩,其重要性是不言而喻的。本文对初中语文诗词教学中如何激发学生的学习兴趣、加强阅读指导工作、重视解读鉴赏诗词、注重引导学生欣赏古诗词的形象美等课堂教学方式方法进行探讨,旨在通过这些有效的方
风湿病学是内科领域的新型学科,如何在大学本科搞好这一专业的教学,本文通过课堂教学,结合临床实例,同时介绍本专业的最新科研信息等方面进行实践和探索,激发学生的学习热情,提高教
B What You Wanna B Doctor, actor, lawyer or a singer? Why not president, be a dreamer You can be just the one you wanna be Police man, fire fighter or a post man Why not something like your old m
本文在多年教学实践和改进的基础上,对蟾蜍血在医学细胞生物学实验教学中的应用进行了总结,并详细介绍了具体操作方法,供同行参考.
七年制临床医学专业的教学目标是:培养政治思想素质高,人文社会科学知识、相关自然科学知识、医学基础知识宽厚而扎实,勤于思考,善于学习,勇于创新,各方面能力强,达到硕士水
用户在浏览网站上的套图资源时,经常会看到网页上充斥着大量的广告和不相干的内容,甚至让人分不清哪些是图片资源,严重影响观看体验。其实,如果你使用Chrome浏览器,那么可以安装“