论文部分内容阅读
微视频又称为视频分享短片,是指互联网用户通过手机、电脑、摄像机等多种摄录设备拍摄并自主上传的视频短片。近年来随着社交媒体的迅猛发展,微视频这种新的媒体形式已成为当前媒体结构的重要组成部分,对人们的生活产生了重要影响。场景识别是对图像或视频场景语义的分析与理解,是计算机视觉的重要研究内容。虽然场景识别的研究起源已久,也取得了较大的研究进展,但是面向微视频的场景识别是相对较新的研究课题。研究面向微视频的场景识别有助于挖掘微视频内在使用价值,可为微视频相关产业提供技术和方法支撑。因此,研究面向微视频的场景识别具有重要的科学意义和很高的应用价值。与传统场景识别任务相比,面向微视频的场景识别具有自身的特性:1)数据量大。微视频多来自社交媒体平台,而数以亿计的社交媒体平台用户,产生了海量的微视频数据,可以为场景识别提供数据支持。2)时长短。微视频的时长短则几秒,长则不超过二十分钟,时长短使得微视频场景信息较难捕捉,这在一定程度上增加了微视频场景识别的难度。3)具有社交属性。大量的评论、话题等社交属性中包含的文字信息,可以作为微视频的模态之一,为微视频场景识别提供更多辅助。上述特性,使得面向微视频的场景识别具有较大的研究空间。同时,面向微视频的场景识别也面临诸多挑战:1)噪声问题。微视频的生成,由于没有相应的标准和规则,导致其主观性较强,数据中往往包含很多噪声。2)不同模态之间关联性较弱的问题。微视频的视觉、声音、文字(来源于评论、话题等社交属性信息)可以作为微视频场景的多个模态表示,但是微视频的来源以及拍摄上传的随意性导致了微视频视觉、声音以及文字三个模态之间的关联性较弱。3)不一致性问题。对同一场景、相同的表达意图,不同用户拍摄的微视频,内容上经常存在较大的差异。4)部分模态对场景语义表征能力弱的问题。由于客观噪声或用户的主观性,导致部分视觉、声音或文字信息对视频场景语义表征能力较弱,很难通过单一模态确定场景类别。5)数据不平衡问题。热门场景,数据量很大,冷门场景,数据量可能很小。本文基于面向微视频场景识别的特性,针对上述部分挑战性问题,重点开展了如下研究工作:1)针对微视频场景的不同模态之间关联性较弱的问题,本文提出了基于多模态互补的微视频场景检索方法。该方法充分利用多个模态的语义互补性,将多个模态融合成一个特征表示,进而通过多层感知机将该融合特征进行非线性变换,来自动学习每一维特征与场景语义的相关性。最后通过监督的哈希学习方法,学习既保持了类内相似性又具有判别性的哈希码表示,提高了场景检索效率和精度。2)针对同一场景下微视频内容存在不一致性的问题,本文提出了基于一致性语义学习的微视频场景分类方法。该方法采用场景的深度特征作为空间特征表示,并将注意力机制融入特征表示来自动提取视频帧中与场景语义相关的内容。结合长短时记忆模型LSTM,学习视频帧之间蕴含的时序特征。最后通过双分支的网络框架和监督的学习机制,学习同一场景下视频内容的一致性特征表示,提升了微视频场景分类的准确率。3)针对微视频场景的部分模态语义表征能力弱的问题,本文提出了基于多模态语义增强的微视频场景分类方法。该方法通过最小化多个模态语义之间的距离,实现强语义模态对弱语义模态的语义增强。同时将增强后的弱语义模态特征与增强前的特征表示相融合,充分利用了弱语义模态自身的特性。最后通过多个模态的特征权重自动学习,实现自适应的多模态互补融合,提升了微视频场景分类的准确率。