论文部分内容阅读
近年来,随着网络应用的飞速发展,多媒体文件数量每天在以几何级数的速度在Internet上不断涌现。其中的视频数据由文本、视频、声音、图像等多种文件融合而成,其本身具有的层次性、结构性、复杂性等特征,还含有丰富的语义信息;所以快速处理视频数据、提取视频特征、分析和理解视频中包含的语义内容,受到多媒体信息处理研究人员的广泛关注。视频语义事件检测分析的研究成果对于如何在浩瀚的视频信息海洋中快速、准确地检测到用户需要的视频,且进一步应用在视频点播、智能监控和视频挖掘等领域具有重要的实际应用价值。现有的基于语义的视频事件检测分析技术,还存在很多局限性,如对于多个具有不同特征的运动对象识别率低、视频语义事件检测准确率低、难以发现语义事件关联性以及事件语义描述标准不统一等。本文围绕视频多运动对象识别特征描述与分类、基于语义的视频复杂事件检测与分析、语义事件关联性挖掘及事件级高层语义描述和理解四个方面的关键技术,深入分析了这些关键技术的研究现状和存在问题,提出了自适应的组合不变矩量值的多运动对象特征描述与分类方法、轨迹多标签超图模型检测与分析复杂事件方法、时序关联规则挖掘事件语义算法以及格语法框架网络结构描述理解视频多线程事件技术。本文的主要工作概况如下:(1)提出了自适应的组合不变矩量值的多运动对象特征描述与分类方法。在该方法中,针对不同的运动对象特征各异的特点,提出了自适应组合不变矩量值方法,可动态选择不变矩特征量值用于描述不同对象的特征。通过定义SF-ISF(Similar Frequency-In verse Singular Frequency)方法计算出每个对象的不变矩量值的权重值,之后再将不变矩量值的权重值和组合不变矩量值作为输入参数;建立回归型支持向量机(Support Vector Regression,SVR)多类分类器模型,对场景中的多种运动对象进行分类。通过实验验证了对不变矩特征量值选择权重的合理性,以及对SVR多类分类器的分类性能进行分析,结果显示能有效提高运动对象的识别率。(2)提出了基于轨迹多标签超图模型的视频复杂事件检测分析方法。由运动对象的时空特征,在对运动轨迹进行定义、修剪和相似度计算后,用标准化分割的方法检测出运动子事件。之后建立轨迹多标签超图模型对视频复杂事件分析进行分类识别:首先,根据运动轨迹建立轨迹超图,再由视频事件中的语义概念建立概念多标签超图,并对两者进行了配对融合,从中发现了轨迹与多概念标签之间的映射关系,从而提取出多个运动事件组成的复杂事件语义。实现了视频事件识别过程中低层特征与高层语义之间的跨越,实验结果和相关工作分析比较表明,该方法能够有效提高视频复杂事件检测的平均查准率和平均查全率。(3)基于时序关联规则的视频事件语义挖掘算法。在该方法中,根据视频事件中多运动对象运动规律之间存在的时序关联特性,设计了一个描述运动事件,存储运动事件语义标签的频繁模式树(Temporal Frequent Pattern Tree, TFPTree)结构,设计了加权的频繁模式挖掘算法,以挖掘出不仅包含事件发生频率,还表现事件之间具有时序特性的强关联关系规则。克服了视频事件分析中,事件关联性检测准确率低的缺点,能够根据事件频繁模式过滤了无关的非频繁项集,挖掘出具有时序和频次关联性的视频事件,发现视频事件语义的时序频繁模式。实验结果表明,由此方法挖掘之后得到的强关联规则数目更加精确;算法运行效率得到有效提高。(4)基于格语法框架网络结构的视频高层语义描述和理解的方法。该方法将用于自然语言理解的格语法理论与视频语义事件结构特征相结合,设计了格语法框架网络(Case Semantic Frame Net, CSFN)结构,将子事件框架之间关系定义为,继承(Inheritance)、总分(SubFrame)、时序(Temporal)、起始(StartState_EndState)、因果(Causative)、使用(Using)、参照关联(Ref Asso)七种,用于描述事件中的运动对象、事件、状态及事件之间的关系。并对事件框架的时序关联性和空间关联性进行了分析,并从事件级语义层上描述和分析多线程的复杂事件之间的关系。实验结果表明,通过格语法框架网络结构的语义描述,能更好地便于用户理解视频事件级语义,有效提高视频语义事件检测的效率。本文在视频多运动对象的特征描述与分类,视频复杂事件检测,语义事件关联性挖掘、视频高层语义描述和理解等方面进行了新的尝试并提出了有效的解决方案,为后续基于语义的视频事件检测分析研究提供了新的参考。