论文部分内容阅读
随着科学技术的快速发展,人们可获得的多媒体素材,如在线门户网站优酷和移动终端应用程序微视提供的视频剪辑,呈现爆炸性增长,迫切需要高效的多媒体内容分析方法,来满足人们日益多样化的需求。多媒体事件检测,作为多媒体内容分析中一个新兴的分支领域,正在引起越来越多研究人员的关注。当前关于多媒体事件检测方面的研究工作主要集中在特定类型的简单事件检测,例如有控制视频剪辑中的运动和新闻事件,或监控视频剪辑中的异常事件检测。这些研究所提出的方法还没有达到对一般类型的复杂事件进行高效检测的目标。为了实现复杂的且通用的多媒体事件检测,本文在深入调研相关文献的基础上系统地研究了多媒体事件检测中的若干关键技术,包括特征表达方法和特征分类方法,并提出了一系列有效的解决方案。具体而言,本文的工作及贡献主要体现在以下几个方面:(1)在复杂事件类型非常多时,借助于传统特征描述器的事件模型训练需要用到大量不易获取的有标签视频剪辑。针对此问题,本文设计了一个用时空对象表述事件的直观解决方案:采用从一些常用的标准图像数据集中可以较易获得的大量有标签图像,来训练出大量常规的对象模型,用于检测事件中涉及的对象,并采用从一些常用的标准视频数据集中可以同样较易获得的相对少量有标签视频剪辑,在抽取其中涉及的对象之间时空关系特征基础上训练出多个事件模型,用于检测视频剪辑中发生的事件。相应地,本文提出一个潜组逻辑回归检测器模型,用来检测视频剪辑中事件涉及的对象,以及一个复合的事件库特征描述器,用来抽取检测出对象之间的时空关系特征,并采用常规分类器从这些时空关系特征中训练出事件模型。此外,为了能高效地学习出大量的潜组逻辑回归检测器模型,本文设计了一个基于坐标下降的两步框架,并提出了一个快速收敛的模型参数学习算法。同时,本文在Image Net图像数据集和TRECVID视频数据集上实施了一系列相关的实验。结果表明,基于潜组逻辑回归检测器模型和事件库特征描述器的组合解决方案在平均精度均值、漏检概率均值以及最小归一化检测开销均值三个事件检测评价指标上,均优于实验中选择的对比算法,且相对性能提升值分别是10.6%、7.5%和6.3%。(2)一般类型的复杂事件通常包含大量视觉属性,例如对象、场景和人体行为等。对于事件分类器来说,视觉特征是可见类,而视觉属性则是更深层的不易被捕获并被利用的隐藏类。因此,对于多媒体素材中视觉属性的恰当表达,无疑将有助于提升多媒体事件检测的质量。虽然传统的高斯混合模型可以借助于组件概率密度函数来对多媒体素材中更深层的隐藏类进行建模,然而直接将高斯混合模型当作事件分类器并采用最大似然估计方法来学习模型参数时,就会很容易导致过拟合的问题。为此,本文提出一个基于?2正则化的逻辑高斯混合回归模型,用于对复杂的且通用的多媒体事件进行分类。该分类器模型,首先采用了与使得模型参数稀疏的?1正则化不同的非稀疏且可微的?2正则化方法,来充分地利用多媒体素材中互补的隐藏类,其次采用了逻辑回归方法,使得正则化的损失函数是凸的以及分类函数的值域是正负标签易分的。最后,本文给出了基于梯度下降框架下的一个快速收敛的模型参数学习算法,并实施了多组实验来验证所提出分类器模型的有效性。结果表明,基于?2正则化的逻辑高斯混合回归模型在平均精度均值、漏检概率均值以及最小归一化检测开销均值三个事件检测评价指标上,均好于实验中选择的对比算法,且相对性能提升值分别是14.9%、2.6%和6.5%。(3)针对Web环境下多媒体事件在线检测存在的安全访问控制问题和大规模鲁棒表达问题,本文分别提出一个基于权限服务树的访问控制模型和一个扩展的大规模鲁棒对象库表达方法。该访问控制模型,在基于角色的以及面向服务的访问控制模型上引入了一棵权限服务树,并采用了孩子兄弟链表的存储方式以及基于深度优先遍历的生成算法,是一个由五个实体集和五个关系集组成的有向图。该特征表达方法,借助了从图像数据集中训练出的大量简化对象检测器来检测特征,并通过将空间金子塔置放于简化对象检测器响应上来抽取特征,同时使用了空间兴趣点词袋方法来编码已抽取的特征。实验结果表明,本文所提出的基于权限服务树的访问控制模型可以有效地满足Web环境下多媒体事件检测系统的动态访问控制需求,且所提出的扩展的大规模鲁棒对象库表达方法在兼顾Web环境下多媒体事件检测的准确性基础上,可以有效提高事件检测的实时性,即在特征抽取方面比实验中选择的对比算法快1.46倍至4.15倍。