基于内容的视频检索关键技术研究

来源 :上海交通大学 | 被引量 : 0次 | 上传用户:QCLHQCLH
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着多媒体技术与网络技术的发展,数字视频逐渐成为现代信息系统中主要的媒体形式。视频具有数据量大、蕴涵信息丰富的特点,具有时间及空间三维结构,其本身常常是无组织的数据流,难以搜索与浏览,这对视频信息获取构成严重的挑战。为了有效地获取视频信息,基于内容的视频检索技术应运而生。基于内容的视频检索对视频数据中蕴涵的视觉和语义内容进行计算机处理、分析与理解并根据内容进行检索,其本质是对视频数据结构化,提取视觉与语义信息,保证视频内容能被快速检索。基于内容的视频检索技术蕴涵着巨大的市场前景,自上世纪九十年代以来就成为一个活跃的研究领域。其中,为了解决多媒体内容描述的标准化问题,国际标准化组织ISO/IEC下的MPEG委员会制定了国际标准MPEG-7。 到目前为止,基于内容的视频检索技术已取得了巨大的进展,但离实用化还有相当距离,许多原型系统和商用系统还难以满足用户的需求。其问题之一是视频结构化,即如何自动地实现视频时域分割,将视频流分割成具有一定意义的不同层次的视频单元;其次是如何实现自动的内容分析,提取视觉与语义特征来描述视频内容。目前,视觉特征提取已取得一定进展,但语义特征提取依然是一个难题,即所谓的“语义鸿沟”。在大规模的视频数据库系统中,多维索引技术也是一个难题。由于基于内容的视频检索是一种相似性检索,相似性度量标准与人的主观评价是否一致,也是一个值得研究的问题。因此,基于内容的视频检索还有许多技术问题需要解决。本文中,我们对基于内容的视频检索中的一些关键技术进行了研究,侧重于视频结构与内容分析,论文的主要工作与创新点包括: 1)研究了镜头边界检测技术。提出了一种基于镜头边界系数模型的镜头边界检测方法,讨论了镜头边界系数的四种计算方法,并在该模型的基础上提出了两种镜头边界的检测算法。该方法由于同时考虑多帧图像,因此具有很好的抗噪声能力,镜头边界检测的查全率与准确率要优于传统的基于相邻帧差的镜头边界检测方法。 2)研究了镜头关键帧提取技术。提出了一种基于感知运动活力的内容自适应的关键帧提取方法,其主要特点就是根据人眼的感知特点,针对视频帧中的优势运动区域计算感知运动活力,然后将感知运动活力序列分割成一个个的运动模式,根据运动模式来提取关键帧。其次,基于镜头边界系数模型讨论了关键帧的提取方法,由镜头边界系数的特点可知,镜头边界系数较大的地方,往往意味着场景内容发生了一定的变化,因此基于这个特点也能很好地提取关键帧,简洁地表达镜头内容。 3)研究了视频内容的低层分析技术。基于脉冲耦合神经网络对图像分割和低层视觉特征提取进行了详细的讨论。在本文中,我们指出了现有文献中一些有关脉冲耦合神经网络图像分割的不足或错误之处,提出了新的完美图像分割条件,并对脉冲耦合神经网络的适用条件示例进行了详细的讨论,提出了连接系数与阈值衰减时间常数的经验计算方法,结合特征域提出了灰度分布重叠图像的分离方法,同时还讨论了脉冲耦合神经网络自动图像分割方法。由于脉冲耦合神经网络具有时空整合作用,因此提取的感知时间序列不仅包含图像的统计特征,还包含图像的空间几何特征,即整体视觉特征,因此,感知时间序列对不同图像的描述与区别能力远优于常用的直方图方法,非常适合作为低层视觉特征。讨论了感知时间序列的特点,并详细地讨论了感知时间序列的相似性度量方法。 4)研究了基于视频对象的视频内容分析技术。本文结合运动与边缘信息提出了一种视频对象提取方法,首先在时间域估计图像帧的运动场,再基于六参数仿射运动模型使用全局运动估计方法获得全局运动区域和局部运动区域,根据六参数模型的参数可以识别摄像机操作类型,用于摄像机操作类型查询或全局运动查询;对局部运动区域再进行多阶段仿射运动一致性分割,获得独立运动区域。在空间域方面,使用Canny算子和运动检测提取运动边缘,并对边缘进行优化,然后进行高斯扩展,形成光滑的吸引力场。在时空联合分析时,对独立运动区域和跟踪目标进行识别,区分出跟踪目标和新目标,并使用曲线演化的方法进行边界校正。提取视频对象后,对视频对象的描述进行了详细的分析,以有效地表达视频对象或用于视频对象识别。 5)研究了视频高层内容分析技术。在视频内容分析中,机器学习起着非常关键的作用,尤其是要实现基于语义的视频检索或个性化查询。本文基于统计学习理论提出了一种新的多类模式识别方法:BTSVM。首先对多类分类器的结构及其泛化能力进行了分析,认为在多类分类器中,决策结点越少,决策结点的分类间隔越大,多类分类器的泛化能力就越好。基于这个准则,在决策结点,使用特征空间的极小极大准则作为决策结点的分裂准则,然后在决策结点采用支撑向量机学习算法获得最优分类面,提高学习算法的泛化能力。 本文提出的所有方法都进行了实验验证,实验环境为:CPU为AMDAthlonXP1800+,内存为512MDDRSDRAM,操作系统为Windows2000,程序开发环境为VisualC++6.0。
其他文献
期刊
会议
期刊
学位
学位
期刊
期刊
期刊
期刊
学位