基于多模态信息的新闻视频内容分析技术研究

来源 :天津大学 | 被引量 : 0次 | 上传用户:youngyyw
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
对视频数据的有效处理、浏览、检索和管理正伴随着视频数据的快速增长而成为亟待解决的现实问题。视频内容分析技术旨在将非结构化的视频数据结构化,并提取其中的语义内容,构建低层特征到高层语义之间的桥梁,最终建立视频的摘要、索引和检索等应用系统,提供给用户方便的视频内容获取方式。本论文以新闻视频为研究对象,以音频、字幕、视觉等多模态信息及其有效融合为研究手段,以模式识别理论中的相关模型为工具,对视频内容分析技术展开了较为深入的研究。主要贡献包括以下三个方面:(1)提出了一种新颖的基于MPEG压缩域的主持人镜头快速检测算法。其中,在预处理部分,引入了一种改进的利用压缩域信息检测人脸的方法;在镜头聚类部分,构造了一个新颖的度量特征量对主持人镜头采用系统聚类法进行聚类,并用模糊C均值聚类法解决了聚类过程中自适应阈值确定的问题。该算法在保持较高检测性能的前提下提高了主持人镜头的检测速度。(2)提出了一种基于决策树的镜头分类算法,将新闻视频镜头依次分为广告、“其他”、静态图像、主持人、记者和独白六类。其中广告、“其他”和静态图像三类分别利用黑帧、运动、时间以及人脸等特征进行检测;主持人镜头采用聚类方法进行检测;对于比较难区分的记者和独白镜头,创新性地将它们的检测转换为文本序列标注的问题,并采用条件随机场进行建模。该算法有效地融合了音频、人脸以及上下文等多模态信息,对新闻视频中重要的镜头进行了区分,并取得了较好的分类结果。(3)提出了一种融合音频、字幕以及视觉等多模态信息的新闻故事单元分割算法。创新性地将字幕变化、音频类型以及镜头类型等高层次内容特征联系起来共同处理,巧妙地将新闻镜头序列转换成为多个关键词序列,使新闻故事单元分割问题转换成为文本序列分割的问题。该算法采用条件随机场进行建模,充分利用了每个序列内以及序列之间的上下文信息,得到了较好的分割性能。此外,论文还综述了视频内容分析技术,构造了一个基于规则和隐马尔可夫模型的分层音频分类方法,实现了一个较完整的新闻视频中字幕提取框架,最终设计并实现了一个基于COM架构的视频内容分析与摘要系统。综上所述,本论文分别从音频、字幕、视觉以及它们之间的有效融合等方面对新闻视频进行了基于内容的分析,实验结果证明了这些算法的有效性。
其他文献
不自主的经尿道漏尿的现象,国际排尿控制协会定名为尿失禁.PKRP(等离子切割系统前列腺切除)术后出现短时期尿失禁是较为常见的并发症之一,因此,对患者进行有效的护理指导,既
ue*M#’#dkB4##8#”专利申请号:00109“7公开号:1278062申请日:00.06.23公开日:00.12.27申请人地址:(100084川C京市海淀区清华园申请人:清华大学发明人:隋森芳文摘:本发明属于生物技
所谓城市化,就是把农民化入城市的过程。由于制度设计、文化背景、思想观念、历史沿袭等方面的差异,中国和西方在城市化进程中有很大不同。其根本原因在于西方农民城市化后彻
11月8~9日,作为2011中国(张家港)长江文化艺术节系列活动之一,由中国收藏家协会、张家港市人民政府共同主办的“金生杯”长江黄河流域珍稀钱币博览暨赛宝大会在张家港市文化中心隆
在全球服务贸易及数字化技术不断发展的背景下,我国服务贸易近年来呈现出强劲增长态势,在优化贸易结构与促进就业方面发挥重要作用。然而,我国服务贸易占GDP的比重与发达国家
2008年,西安分行和汉中市政府在汉中市开展了金融服务创新综合试点。人行汉中中支紧扣"一个目标、三个平台、七个体系、十一件实事",大胆探索,使试点工作取得了明显成效。本
自新冠肺炎疫情暴发以来,党中央、国务院高度重视。习近平总书记多次主持中央政治局常委会等重要会议,研究部署新冠肺炎疫情防控,要求统筹推进疫情防控和经济社会发展工作。
ue*M#’#dkB4##8#”专利申请号:00109“7公开号:1278062申请日:00.06.23公开日:00.12.27申请人地址:(100084川C京市海淀区清华园申请人:清华大学发明人:隋森芳文摘:本发明属于生物技
<正> 武装力量,是指国家或政治集团的各种武装组织的总称,一般以军队为主体,由军队和其他正规的、非正规的武装组织组成,通常包括常备军、预备役部队、武装警察部队和群众武