论文部分内容阅读
随着多媒体技术、网络技术的快速发展,承载丰富信息的视频媒体出现了爆发性增长。视频已日渐成为人们获取信息的重要途径,并改变着人们工作、生活的方式。在此背景下,如何高效地从海量的视频信息中搜寻到用户真正需要的视频片段就成为一个现实而紧迫的问题。本文以电视剧视频为研究对象,重点研究联合特定人物和场景的视频实例检索问题,即,希望从海量视频中找出特定人物出现在特定场景的视频片段。在2010年,国际视频领域权威评测TRECVID就开展了“基于特定目标的视频实例检索技术”的研究,旨在从海量视频中找出某个单一特定目标。相较而言,本文的联合特定人物和场景的视频实例检索任务旨在找出特定人物出现在特定场景的视频片段,任务具更大的难度与更多的挑战。具体而言:第一,场景随镜头拍摄角度、遮挡、光照等因素呈现多变的内容,尤其是当镜头在广角和特定镜头切换时,场景的内容将发生较大变换,用单一的场景检索方法难以找全不同内容的场景镜头。第二,本检索任务关注海量视频数据的检索,较之,海量视频库中满足联合特定人物和场景条件的镜头数据量较少,即存在许多干扰镜头,如,存在含有人物而不含特定场景、含有特定场景而不含特定人物等的干扰镜头,此外,某些正确的人脸或者场景镜头可能检索分数比较高,但其相邻正确镜头由于非正面或遮挡等原因相应分数较低因此排名靠后。第三,一套完整联合特定人物和场景的视频实例检索系统有利于对检索相关算法进行快速验证,能够直观展示检索效果的界面也成为一种需求。针对上述问题及现状,本文分别从三个不同方面展开研究,主要成果如下:针对场景随镜头拍摄角度、遮挡、光照等因素呈现多变内容的情况,本文提出基于局部与全局特征组合优化的特定场景检索方法。一方面,通过基于BOW模型的局部特征找场景标识物从而找到部分关注局部信息的特定场景镜头,另一方面基于CNN模型的全局特征直接找场景从而找到关注全局信息的特定场景镜头,并融合两种不同检索方式得到最终场景检索结果。实验证明该方法有效提升了场景检索准确率。针对海量视频中存在大量干扰查询的错误镜头以及连续视频中高分镜头近邻存在由于遮挡等因素形成的低分的正确镜头的情况,本文提出基于噪声去除和近邻补全的视频实例检索方法。一方面,通过分析找出与查询无关的镜头并将其过滤,另一方面,通过高斯模型调整高分镜头的近邻低分镜头分数以提高低分的正确镜头的排名。实验证明该方法大大提高了联合特定人物和场景的视频实例检索准确率。针对联合特定人物和场景的视频实例检索这个检索任务,本文完成了联合特定人物和场景的视频实例检索系统,该系统实现了在给定人物和场景的实例图片和查询视频库后,返回最有可能是待查询的特定人在特定场景下的镜头,实验证明依托该系统,算法取得了 TRECVID-INS2016中最高的联合特定人物和场景的视频实例检索准确率。此外,本文设计了联合特定人物和场景的视频实例检索的效果展示界面以便直观看到检索结果,在此基础上,本文还进一步开发了联合特定人物和场景的视频实例检索交互界面。综上所述,本文旨在研究联合特定人物和场景的视频实例检索,通过分析联合特定人物和场景的视频实例检索中可能存在的问题,提出相应的解决方案。对于提高视频检索准确率,进一步促进信息检索等领域的发展,从而进一步对视频检索技术在安防、商业、娱乐等领域的成果转化和直接应用起到重要推动作用。