论文部分内容阅读
近年来随着数据压缩、通讯、存储技术的飞速发展,以及计算机性能的不断提高和网络的广泛普及,多媒体视频的应用得到了极大的发展。尤其是新闻视频已成为人们获取新闻信息的重要来源。面对如此海量的新闻信息,如何快速有效地查询到包含人们所需要的新闻内容的信息成为多媒体技术的研究热点。新闻视频摘要和检索是解决这些问题的主要方法,而其中一个重要的基础工作就是新闻视频结构分析。本文提出了一种融合主持人镜头、视觉特征、音频特征和文本信息等多模态特征的新闻视频结构分析框架,该框架针对绝大部分的新闻视频结构模式,设计并实现了新闻视频的故事单元分割。首先对新闻视频进行预处理,将新闻视频分割成音频流和视频流。对于音频流,选择静音区间作为音频候选点;对于视频流,首先对新闻视频进行镜头分割,将镜头边界切变点作为视频候选点,然后进行主持人镜头和主题字幕的探测,将主持人镜头作为候选区间并记录主题字幕的起始位置和结束位置;最后基于时间轴融合音频候选点,视频候选点,主持人镜头和主题字幕对新闻视频进行故事单元分割。通过对中等规模的CCTV《新闻联播》视频进行实验,结果表明本文提出的分割方法可以较好的对新闻视频结构进行有效分析,获得平均83.18%的查全率和83.92%的查准率,可以较好的对新闻视频结构进行有效分析。