论文部分内容阅读
多媒体和网络技术的发展使得视频资源变得越来越丰富,伴随而来的问题则是视频数据量的快速增长。因此如何对这些海量视频数据进行有效的处理,从而提高浏览和检索效率就成为了当前亟需解决的现实问题。视频摘要技术可以缩减视频的数据量,节省浏览时间,是解决这些问题的关键。新闻视频是人们获取信息的主要来源之一,与一般的视频数据相比,它有其特殊的结构和组织特征,这都使得针对新闻视频的摘要技术成为近年来广泛研究的热点。本论文针对这一课题进行了探索和研究,并做出了一些有特色的成果。(1)研究了新闻视频中的镜头分割,提出了一种基于白适应阈值的镜头边界检测算法。针对新闻视频中多为切变镜头及经常存在闪光灯的特点,首先通过两次检测及自适应闽值调整初步确定镜头边界,然后加入闪光灯判定条件并将检测出的闪关灯事件滤除,最终确定镜头边界。实验证明,本算法对闪光灯的适应性大大增加,显著提高了镜头检测的准确率(2)研究了主持人镜头检测,提出了一种基于音视频特征融合的主持人镜头提取方法。主持人模板是通过综合考虑静音片段的特征之后自动提取的。然后利用主持人镜头背景不变的特性,通过色矩计算和颜色模板匹配来进行主持人镜头的检测。该方法实现了主持人镜头的自动化聚焦,具有准确度高和适应性强等优点。(3)研究了关键帧提取技术,提出了一种基于镜头与标题字幕方法融合的关键帧提取方法。针对新闻节目的特点,选取两种帧作为关键帧:一是包含新闻主题字幕的帧,二是取每个镜头最接近时间中点的帧作为关键帧。实验结果表明,该方法提取的关键帧具有较好的代表性,能够较好的描述新闻内容。(4)研究了视频摘要的生成及表现形式。综合考虑新闻视频中的多种模态信息,提出了基于多模态特征融合的新闻视频摘要生成方法,视频摘要表现形式包括新闻故事板形式的静态摘要、基于比例压缩的视频缩略、基于主持人镜头的视频缩略和基于新闻标题条的视频缩略。最后,设计实现了一个多特征融合的新闻视频摘要原型系统,系统集成了本文研究的主要成果,实验结果表明,用户对摘要结果的满意度较高。