个体和群体的视觉行为理解

来源 :中国科学院研究生院 中国科学院大学 | 被引量 : 0次 | 上传用户:fobbvb
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
基于视觉的运动分析是为了使计算机获得智能感知能力,使它们能够从视频里面识别物体,理解目标的行为。随着各种各样的视频数据大量涌现,计算机视觉的应用范围也越来越广,比如视觉监控,人机交互,体育视频解说等等。这就需要计算机可以快速得从海量视频数据中提取有用的信息,并自动分析场景中发生的事件。近几年已经有很多学者关注这个领域,并且做了很多工作。但是仍然有很多充满了困难的问题没有解决。行为理解的本质是建立图像序列的底层特征和高层行为模式之间的联系。本文从特征层面、识别算法到整体框架开展了一系列的工作,研究其中遇到的问题。主要工作有:   ①详细回顾行为理解的研究现状,包括其相关研究、当前主要采用的方法、目前存在的研究难点以及将来可能的研究方向。   ②提出了基于主导集聚类的行为理解算法框架。人是视频序列的主要运动目标,人体在每一帧图像上的形态称之为姿势,姿势序列按照时间连贯起来就表现为不同的行为。本章中,针对单帧姿势的二值人体轮廓,使用Shape Context作为描述轮廓的特征。Shape Context具有很好的描述能力和尺度不变性。使用主导集聚类生成视觉字典。主导集聚类的优点是得到的聚类团要比K-means的结果更加紧密。实验分析表明,我们的算法不仅可以区分“走”,“跑”等相似性很高的不易区分的行为,即使是被噪音干扰,得不到完整轮廓的视频我们的算法同样可以保持90%的准确率。   ③阐述了基于全局特征统计的群体行为分析算法。基于轮廓的运动特征容易受到衣服等外部因素的影响,而且对于多人之间的群体行为,目标彼此之间经常性的相互遮挡。使得轮廓特征完全不能正常工作。这时基于全局统计的运动特征,比如时空兴趣点、光流直方图可以更好的描述这些行为。基于上述考虑,本章提出了一种基于全局统计特征分析多人群体行为的算法。实验证明,我们的算法不仅在群体行为之间可以识别群体行为的类别,也可以在群体行为内部,识别群体的整体行为。   ④提出了一种方法使用稀疏表示压缩视觉字典。我们首先使用旧视觉字典稀疏表示训练数据,然后在稀疏表示上学习出旧字典每个词的权重,最后使用权重进行字典压缩。我们在Weizmann数据库上测试了这种算法,得到的实验结果显示:稀疏表示确实可以在保证性能稳定的情况下,压缩K均值聚类构造的视觉字典。
其他文献
支持向量机Support Vector Machine, SVM)是机器学习领域的有效工具,以其快捷的训练方法和良好的泛化性能受到人们的广泛关注,在函数估计、模式识别等方面取得令人欣慰的成果
随着宽带的日趋普及和通信网络技术的快速发展,P2P流媒体以其高扩展性和较高的性价比,成为推动未来宽带应用的主动力。如何对各个发送者传送的数据进行有效合理的调度成为提
近年来,无线通信技术的渗透和微型嵌入式计算设备的增加加速了泛在环境的发展。现在,泛在网络开发的一个基本障碍是缺乏编程抽象。本文围绕这一前沿领域,研究网络编程逻辑抽象。
教师绩效评定管理是学校管理中的一个重要内容,随着时代的进步,学校也逐渐变得庞大起来。如何管理好学校教师绩效评定信息,这成为学校管理中的一个大问题。在这种情况下,开发一个
目前虽然办公文档都采用 XML(可扩展标记语言)进行描述的,但是由于不同格式标准制定的出发点不同,这些格式杯准间并不能完全相互兼容,支持这些格式的软件之间也无法达到很好的互
以太网技术以其良好的稳定性、兼容性及高带宽、低成本等特点,成为了分布式数控系统的数据透明传输及底层通信能力提升的较为流行的实现方案。但与此同时,以太网的接入机制带来
近年来,随着Internet的发展,由于网络传播方便快捷,让越来越多的商家选择互联网作为数字产品(如MP3、数字图片、视频等)的分发销售途径。但另一方面,网络传播也使得盗版者能以低
随着网络应用范围的不断扩大,对网络的各类攻击与破坏与日俱增,网络入侵技术也在不断进步。当前,复合攻击已经成为网络攻击的主要形式之一,给社会带来了越来越大的危害。大多数的
图像分割就是根据图像中一个或多个特征把图像分成各具特性的区域并提取出感兴趣目标的技术和过程。它是计算机视觉中非常重要的研究内容,是图像分析处理的关键。图像分割结果
近年来随着多媒体技术和互联网的飞速发展,图像信息越来越得到重视。如何从大量的图像中快速、有效、准确地搜索到人们感兴趣的图像成为当前面临的重要问题,基于内容的图像检