论文部分内容阅读
摘要:在视频监控技术不断发展的现今阶段,视频信息量呈现出高速增长的态势。本文提出一种基于运动目标多模态信息融合的视频检索方法对监控视频中的运动目标提取特征,生成相应的视频描述文件,通过匹配查询图片与描述文件中的运动目标特征最终找到相似对象出现的视频片断,极大的提高了搜索效率。
关键词:多媒体数据 运动目标 多模态 信息融合 视频检索
[基金资助]:2013年全国大学生创新创业训练计划立项项目(2013XKCX209)。广西高校科学技术研究项目:(2013YB092)
引言
随着网络和多媒体技术的飞速发展,视频数据呈爆炸式增长。如何在海量视频数据中快速、准确地找到所需信息,变的极其重要。通过对监控视频中的运动目标特征提取(如颜色、纹理、目标类别等特征),建立目标索引模型,生成相应的视频描述文件。这种将运动目标多模态信息融合的检索方法使系统的整体搜索精度大大提高。
1、相关研究现状
当今,基于内容的多模态信息融合的视频检索技术正在经历由理论到实际应用的特殊阶段,市场上很难见到非常成熟的产品,随着中国社会的进步,多媒体技术和网络技术逐渐渗透到各个领域。在科技大发展的今天,对各种资源进行智能化的管理尤为重要。各个相关机构都展开了相应的研究,国内基于内容的多模态信息融合的视频检索技术的研究方面具有代表性的是浙江大学研究开发的基于内容的多媒体检索系统,即webscopeCBR。该系统最大的优势在于,这是一个开放的系统,只要是用于检索用途的图像资源都可以放入庞大的数据库中。
2、检索模块及融合模块
视频是一种没有结构的流数据,是集图像、声音和文本为一体的综合性媒体信息。本文提出一种基于关系代数的多模态信息融合的视频检索模型。该检索模型把视频检索分成文本、图像、高层语义等若干方面,分别针对视频的不同特征进行检索,然后利用关系代数表达式完成多模态信息融合。整个检索模型的流程如图1所示。
图1 检索模型流程
2.1、文本检索模块
文本检索模块主要针对视频中的文本信息进行查询,它将语音识别得到的脚本信息,字符识别得到的画面文字信息和从视频解码中得到的字幕信息进行综合整理,并对应到相应的镜头,然后利用布尔查询方法针对查询处理得到的关键词在已建立的视频文本特征索引结构上进行查询。
2.2、图像检索模块
图像检索模块提取了镜头中关键帧的纹理和颜色方面的若干特征组成特征库,在全局中提供近似查询。此模块可以提取多种全局特征,如:HSV颜色直方图、LAB 颜色直方图、YUV 颜色直方图、GABOR纹理特征等。查询时计算从样例视频中提取的特征与视频特征库中特征的距离,因而得到相似视频。
2.3、高层语义模块
高层语义模块是依据给定的高层语义建立分类器。分类器采用多模型融合以及机器学习的方法进行构造。为某一个高层语义概念构造分类器时,首先将训练集中的每一幅图像分割成4×4的小块,并针对每一个小块的纹理特征等低层特征通过降维形成高维特征矢量,然后利用向量机针对不同特征分别进行训练,得出针对不同特征的语义概念分类器,预测时将这些单个分类器的分类结果通过线性融合得到最终结果。
我们实验中采用的是SVM机器学习的方式来做分类。在实际的学习过程中,面临着一个问题:训练样本分布不均, 正样本很少,而绝大多数都是负样本。我们在负样本集上做K-Means聚类,将过量的负样本聚集到较少的类中心去,然后每个类中心代表一个负样本,大大减少负样本的数量但又不会破坏负样本的空间分布性。并且实验中发现当聚类出的个数接近于正样本的个数时,SVM分类会取得更好的效果。
2.4、融合模块
整个多模态模型中每个原子模块发挥着不同作用。文本搜索模块在搜索人物事件上具有较好的效果,而图像检索模块在搜索场景时表现更好。因此需要一种合适的策略将各个原子模块的的返回结果融合起来。从实际效果以及算法效率上考虑,我们在研究中创新性地使用了关系型表达式,并结合交互式信息通信的检索策略。对于交互式搜索,通过标注得到各原子搜索引擎的搜索精度,利用平均精度来作为各原子引擎融合时的权重,同时采用了线性融合策略,因此算法效率较高,适合在实际的产品中应用。
本文采用的算法流程如图2所示,其中获取前景过程为,当前帧图像I,其RGB分量图像分别为 由 分别获得前景图像Dr、Dg、Db,并分别以下式二值化:
最终获得的前景图像为: 。
图2 算法流程
3、结果
本文实现了一个原型系统。该系统通过道路上架设Honeywell HDC-505PV摄像机采集的监控视频以及通过网络下载获取的监控视频作为实验数据,当监控视频生成描述后,通过检索模型中运动目标的检索模块信息进行检索,检索到相应的信息后,视频自动回放到运动目标出现的场景。
结束语
基于运动目标多模态信息融合的视频检索方法是一种基于对象的视频检索方法,通过对监控视频的分析获得运动目标,以运动目标为对象提取特征在一定程度上提高了检索准确率。实践证明,该方法具有一定的实用性,为用户在监控视频中查找嫌疑车辆或人员提供帮助。下一步将研究基于运动目标的高层语义检索模型。
参考文献:
[1]王勇,郑辉,胡德文,图像和视频中的文字获取技术[J].中国图象图形学报 .2004(5).
[2]冯柏岚,包蕾,曹娟,张勇东,林守勋,基于多模态概念关联图的视频检索[J].计算机辅助设计与图形学学报 .2010(5).
[3]俞辉,苏博览,基于多模态信息挖掘融合的视频检索技术[J].计算机应用与软件.2009(8).
[4]朱丽英,梁辰,张鸿洲,基于运动目标的监控视频检索方法[J].计算机应用与软件.2011(12).
[5]傅施恩,基于内容的视频检索技术的研究与实现,电子科技大学 .2012.
[6]张静,视频信息检索研究,复旦大学.2006 .
[7]路宁,基于SURF和CamShift的物体跟踪方法[J].微型机与应用.2012(21).
[作者简介]:
姓 名:张俊力(1982-), 女,黑龙江大庆人,理学学士,助教。邮箱:[email protected]。
关键词:多媒体数据 运动目标 多模态 信息融合 视频检索
[基金资助]:2013年全国大学生创新创业训练计划立项项目(2013XKCX209)。广西高校科学技术研究项目:(2013YB092)
引言
随着网络和多媒体技术的飞速发展,视频数据呈爆炸式增长。如何在海量视频数据中快速、准确地找到所需信息,变的极其重要。通过对监控视频中的运动目标特征提取(如颜色、纹理、目标类别等特征),建立目标索引模型,生成相应的视频描述文件。这种将运动目标多模态信息融合的检索方法使系统的整体搜索精度大大提高。
1、相关研究现状
当今,基于内容的多模态信息融合的视频检索技术正在经历由理论到实际应用的特殊阶段,市场上很难见到非常成熟的产品,随着中国社会的进步,多媒体技术和网络技术逐渐渗透到各个领域。在科技大发展的今天,对各种资源进行智能化的管理尤为重要。各个相关机构都展开了相应的研究,国内基于内容的多模态信息融合的视频检索技术的研究方面具有代表性的是浙江大学研究开发的基于内容的多媒体检索系统,即webscopeCBR。该系统最大的优势在于,这是一个开放的系统,只要是用于检索用途的图像资源都可以放入庞大的数据库中。
2、检索模块及融合模块
视频是一种没有结构的流数据,是集图像、声音和文本为一体的综合性媒体信息。本文提出一种基于关系代数的多模态信息融合的视频检索模型。该检索模型把视频检索分成文本、图像、高层语义等若干方面,分别针对视频的不同特征进行检索,然后利用关系代数表达式完成多模态信息融合。整个检索模型的流程如图1所示。
图1 检索模型流程
2.1、文本检索模块
文本检索模块主要针对视频中的文本信息进行查询,它将语音识别得到的脚本信息,字符识别得到的画面文字信息和从视频解码中得到的字幕信息进行综合整理,并对应到相应的镜头,然后利用布尔查询方法针对查询处理得到的关键词在已建立的视频文本特征索引结构上进行查询。
2.2、图像检索模块
图像检索模块提取了镜头中关键帧的纹理和颜色方面的若干特征组成特征库,在全局中提供近似查询。此模块可以提取多种全局特征,如:HSV颜色直方图、LAB 颜色直方图、YUV 颜色直方图、GABOR纹理特征等。查询时计算从样例视频中提取的特征与视频特征库中特征的距离,因而得到相似视频。
2.3、高层语义模块
高层语义模块是依据给定的高层语义建立分类器。分类器采用多模型融合以及机器学习的方法进行构造。为某一个高层语义概念构造分类器时,首先将训练集中的每一幅图像分割成4×4的小块,并针对每一个小块的纹理特征等低层特征通过降维形成高维特征矢量,然后利用向量机针对不同特征分别进行训练,得出针对不同特征的语义概念分类器,预测时将这些单个分类器的分类结果通过线性融合得到最终结果。
我们实验中采用的是SVM机器学习的方式来做分类。在实际的学习过程中,面临着一个问题:训练样本分布不均, 正样本很少,而绝大多数都是负样本。我们在负样本集上做K-Means聚类,将过量的负样本聚集到较少的类中心去,然后每个类中心代表一个负样本,大大减少负样本的数量但又不会破坏负样本的空间分布性。并且实验中发现当聚类出的个数接近于正样本的个数时,SVM分类会取得更好的效果。
2.4、融合模块
整个多模态模型中每个原子模块发挥着不同作用。文本搜索模块在搜索人物事件上具有较好的效果,而图像检索模块在搜索场景时表现更好。因此需要一种合适的策略将各个原子模块的的返回结果融合起来。从实际效果以及算法效率上考虑,我们在研究中创新性地使用了关系型表达式,并结合交互式信息通信的检索策略。对于交互式搜索,通过标注得到各原子搜索引擎的搜索精度,利用平均精度来作为各原子引擎融合时的权重,同时采用了线性融合策略,因此算法效率较高,适合在实际的产品中应用。
本文采用的算法流程如图2所示,其中获取前景过程为,当前帧图像I,其RGB分量图像分别为 由 分别获得前景图像Dr、Dg、Db,并分别以下式二值化:
最终获得的前景图像为: 。
图2 算法流程
3、结果
本文实现了一个原型系统。该系统通过道路上架设Honeywell HDC-505PV摄像机采集的监控视频以及通过网络下载获取的监控视频作为实验数据,当监控视频生成描述后,通过检索模型中运动目标的检索模块信息进行检索,检索到相应的信息后,视频自动回放到运动目标出现的场景。
结束语
基于运动目标多模态信息融合的视频检索方法是一种基于对象的视频检索方法,通过对监控视频的分析获得运动目标,以运动目标为对象提取特征在一定程度上提高了检索准确率。实践证明,该方法具有一定的实用性,为用户在监控视频中查找嫌疑车辆或人员提供帮助。下一步将研究基于运动目标的高层语义检索模型。
参考文献:
[1]王勇,郑辉,胡德文,图像和视频中的文字获取技术[J].中国图象图形学报 .2004(5).
[2]冯柏岚,包蕾,曹娟,张勇东,林守勋,基于多模态概念关联图的视频检索[J].计算机辅助设计与图形学学报 .2010(5).
[3]俞辉,苏博览,基于多模态信息挖掘融合的视频检索技术[J].计算机应用与软件.2009(8).
[4]朱丽英,梁辰,张鸿洲,基于运动目标的监控视频检索方法[J].计算机应用与软件.2011(12).
[5]傅施恩,基于内容的视频检索技术的研究与实现,电子科技大学 .2012.
[6]张静,视频信息检索研究,复旦大学.2006 .
[7]路宁,基于SURF和CamShift的物体跟踪方法[J].微型机与应用.2012(21).
[作者简介]:
姓 名:张俊力(1982-), 女,黑龙江大庆人,理学学士,助教。邮箱:[email protected]。