视频中行为分析关键技术研究

来源 :中国科学院研究生院 中国科学院大学 | 被引量 : 0次 | 上传用户:qween
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网的发展和视频设备的普及,电影、体育、新闻、视频监控等领域的视频内容爆炸性地增长。如何能够方便快捷地从海量视频数据中搜索到感兴趣的内容成为了一个亟待解决的问题。为此,视频中行为分析技术引起研究者们高度的重视。这是因为它能够识别以及定位视频中发生的事件,在智能监控、人机交互、虚拟现实和基于内容的视频检索以及医疗诊断等方面有着广泛的应用前景和潜在的经济价值,成为一个热点研究问题。尽管近几年研究者们做了大量的工作,但是仍然存在以下几个关键的技术问题:   ●特征提取和融合。目前对于行为的描述存在很多不同的特征,例如静态视觉特征包括形状和表象,还有动态特征包括时空轨迹和运动光流。这些不同的特征都有各自的描述能力,并且互相之间能够补充和增强。而采用一些简单的融合方法很难挖掘不同异质特征的有效性,因此,如何融合不同的特征描述行为是行为分析的一个重要的基本问题。   ●如何对不同的行为进行建模和相似性度量。我们知道不同的行为有不同的时间持续长度,并且不同的行为可能含有相似的成分。另外,即使是相同的行为,它们也可能存在差异。因此,行为的建模和度量是一个很困难的问题。   ●如何根据有限的标签样本训练有效的行为模型。由于类内变化大,遮挡和背景复杂,使得行为识别是一个极具挑战性的任务。许多现有的工作都是基于统计学习的方法训练行为模型从而识别各种行为。为了实现较高的识别率,我们需要大量的有标签训练样本来训练好的行为模型。但是,人工标注大量的训练样本极其耗时并且繁重,而收集大量的无标签样本却是非常容易的事情(如网络)。因此,如何根据少量的标签数据和大量的无标签数据训练行为模型是一个极其关键的问题。   ●如何分析交通场景中运动目标的行为。随着城市的发展和摄像头的普及,基于视频分析的智能交通管理系统越来越受到重视,并且变成一个热点研究领域。这种智能交通管理系统能够通过对视频数据处理分析,自动得到行人或者车辆的轨迹和方向等运动模式,从而对一些违反交通规则的异常事件进行自动报警,避免大量人工处理。然而,由于交通场景中运动目标种类较多和运动模式复杂,自动地识别各种目标的行为仍然是一个很有挑战性的问题。   本文中,针对上述几个问题,我们在模式识别、计算机视觉、多媒体、机器学习等技术方面做了以下研究工作:   (1)研究了基于多视角学习(Multi-view Learning)的方法融合多种特征。考虑到静态表象信息和动态运动信息这两个视角(特征)对行为的描述各有长短,我们采用一个基于Co-EM的多视角学习框架来代替传统的基于EM的单个视角学习方法。从而能弥补和增强每个视角的描述能力,使得基于多视角的视频描述能力超过每一个单视角。据我们所知,我们是第一个提出了基于Co-EM多视角学习的行为识别算法,并且获得了很好的结果。   (2)研究了提升例子学习(Boosted Exemplar Learning)的方法对行为建模和度量。首先,选取一些关键帧(候选例子),并对每个例子采用多示例学习(MultipleInstance hearning)的方法学习基于每个例子的分类器作为相似度度量,然后通过AdaBoost算法选取最有代表性的例子对行为进行建模。   (3)研究了提升多类半监督学习(Boosted Multi-class Semi-supervised Learning)的方法识别各种行为。本方法基于多类的AdaBoost.MH和Co-EM算法,试图从大量的无标签样本中挖掘有效的信息训练行为模型,从而减少了标签样本的数量。另外,为了避免高维度特征空间的问题,我们采用权重的多类判别分析将高维特征投影到一个低维的子空间来训练高斯混合模型,并且利用Boosting的策略,将这些子空间模型组合起来,从而能有效地对行为进行建模。   (4)研究了基于图模型的半监督多示例学习的视频事件检测。我们提出了一个新颖的基于图模型的半监督多实例学习(Graph-based Semi-Supervised Multiple-InstanceLearing,GSSMIL)算法对不同的视频数据(体育,新闻,电影,监控)的事件进行分析。该算法利用少量的有标签的样本和大量的无标签样本训练事件模型,从而解决了训练样本不足的问题。GSSMIL的一个关键问题是如何学习一个有效的相似度矩阵,为了解决这个问题,我们采用了多示例学习诱导相似度度量。   (5)研究了基于目标分类和轨迹聚类的语义场景模型学习方法分析各种行为。本工作,通过目标分类和轨迹聚类,我们提出了一个新颖的方法学习鲁棒的语义场景模型,从而分析目标的各种行为。为了避免人工标注大量的训练样本,我们采用协同训练(Co-Training)的学习方法用两种不同的特征训练两个分类器:基于判别分析的分类器和AdaBoost分类器。然后,对于每一类目标,我们对其轨迹采取基于空间分布的方法进行更精细的聚类。最后,基于学习的语义场景模型对运动目标的行为进行分析。   总的说来,本文针对视频中行为分析的关键技术做了有益的探索。
其他文献
随着稀土永磁材料的使用,计算机控制技术、电力电子技术以及现代控制理论的发展,以永磁同步电机(PMSM)为执行器的数字化永磁同步伺服系统的应用越来越广泛,逐渐成为了中低容量伺服驱动系统的发展方向。与异步电机相比,永磁同步电机由于其结构和运行特点,具有转矩响应快速,无转子损耗等优点。然而,永磁同步伺服系统受电机参数变化,外部负载扰动等因素的影响,要达到良好的控制效果,必须依靠先进的控制理论,以提高其控
蒸汽动力系统是化工企业能源系统的重要组成部分,在当前社会呼吁节能减排的形势下,蒸汽动力系统的优化运行正面临着严峻的考验。已有的理论研究成果不能很好地适应化工企业实际
第二代成像制导的反坦克导弹是广泛应用的一种武器系统,由于制导系统成像背景的复杂性和制导方式的固有特性,在实际应用中需要解决两个方面的问题。一是由于导弹的旋转、烟雾
双足机器人系统是当前机器人领域的一大研究热点。双足机器人融合了计算机视觉、运动控制、传感与数据融合、智能控制和通信等多个领域的技术。视觉系统是双足机器人的重要组
随着VoIP应用的发展,简单并易于扩展的SIP协议得到了广泛应用。由于SIP协议是一个基于文本的协议,在安全上考虑不足,因此,基于SIP协议实现的VoIP实体在网络中面临着安全威胁,
催化重整是炼油厂中最关键的过程之一,在炼油厂中起着非常重要的作用。它不仅可生产高辛烷值的清洁汽油,而且也可为炼油厂中的加氢过程提供大量廉价氢源。因此,通过研究操作优化
嵌入式视觉系统体积小、功耗低、易安装易维护,其在工业机器视觉和智能机器人领域的应用日趋广泛,但是嵌入式视觉系统的性能与基于PC平台的视觉系统相比,还有一定差距。为提
在整个机器视觉系统中,其最大的功能是在实际工况中提高生产的自动化程度和效率。在许多工作中,有很多是不太适合于人亲身去操作还有的人的眼睛不能满足工业要求,这里就经常用机器视觉来替代人工视觉,可以说机器视觉给现代工业带来了新的革命,加速了工业自动化的脚步。在整个机器视觉系统中,工业相机是机器视觉系统中的一个关键组件,选择合适的工业相机也是机器视觉系统设计中的重要环节,工业相机直接决定所采集到的图像分辨
评估工业过程运行的经济性能水平,并给出正确的优化思路对工厂保持高效生产状态有着重要意义,有效的经济性能评估方法能够在不影响系统正常运行的情况下提升企业生产效益。实际
网络信息的海量增加使得信息检索成为信息获取的重要途径,但是,传统的基于关键词在很多场合下并不能满足日益增长的各种信息获取的需求。比如,对于存在供需双方的搜索,如求职