论文部分内容阅读
电视节目结构化与摘要技术是多媒体内容分析领域研究的主要问题,在视频数据的浏览和检索领域有广泛的应用价值和商业价值。虽然经过多年的研究,电视节目结构化与摘要技术已有了长足的发展,但是要实现一个通用的电视节目结构化与摘要系统还有许多问题有待解决。
本文以电视节目结构化与摘要技术作为研究对象,针对不同类型的电视节目设计了一套通用结构化框架进行逻辑单元分割,并在逻辑单元的基础上针对不同类型节目设计了图片摘要及可视化方法,论文的主要工作和贡献如下:
1.本文提出的镜头检测算法引入了UniformLBP特征作为图像描述基本特征,该特征对于镜头间的渐变比其它特征表现出更好的敏感性,而对于镜头内移动变化则表现出同其它特征类似的稳定性。在差异度构造上本文采用了图模型,这样可以在突出不同图像间差异的同时减小异常扰动。最后本文采用了SVM分类器,对镜头进行分类。
2.根据逻辑单元的语义结构分析,本文提出了通用的逻辑单元分割框架。通过定义四种镜头类型,将逻辑单元分割问题转化为标签识别问题,这一转化将逻辑单元分割中的两类分割问题纳入到同一的框架下,这样的设计使算法在不同类型的节目上有更广泛的拓展性。针对连续镜头标签的识别,本文引入了条件随机场技术,同时选择了镜头差异信号特征、场景转换图特征、主题镜头特征和音频类型特征四种语义特征。由于条件随机场在标签估计的过程中考虑到不同标签中的状态转移概率和训练数据的统计结果等上下文信息,因此可以有效的提高标签估计的准确率。
3.本文在逻辑单元分割的片段基础上,利用镜头聚类、主题镜头和摄影机运动方向等语义信息针对影视剧、新闻节目和纪录片三类电视节目设计图片摘要算法。基于逻辑单元层图片摘要比基于镜头层的图片摘要有更好的简洁性,比基于视频段的图片摘要有更好的概括性,适于视频内容的预览。在图片摘要的基础上,根据影视剧、新闻节目、纪录片三类电视节目各自特点设计了漫画式故事板方法来展示图片摘要,可以提高浏览的趣味性。