分类指导回归的手势估计

来源 :中国科学技术大学 | 被引量 : 0次 | 上传用户:zsh188667787
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着智能家居和智能设备的普及发展,在人们的日常生活中人与设备之间的信息交互将会变得越来越频繁。特别随着计算机和人工智能的发展,更加符合人类交流方式的无接触式人机交互技术研究领域将会变得日趋活跃。这些研究领域包括了眼球跟踪技术、语音识别技术、人脸面部表情识别技术、唇语识别技术、人脸识别技术、手势识别技术和身体姿势识别技术等等。由于手势信息量丰富并且交互运动具有自然舒适无约束的特点,所以手势交互技术是未来人机交互领域的重要研究方向。由于人手体积较小,移动速度和方向变化快,手指的自由度非常高,各个手指之间具有极强的外观相似性并且非常容易相互遮挡,因此如何基于视觉快速精确地估计出人手三维关键点是一个非常具有挑战性的研究课题。针对复杂高维度的手势空间和大视角高遮挡的情形,本文基于"分而治之"的思想提出了一种分类指导回归的手势三维关键点估计方法。该方法将一个困难复杂的手势回归任务划分成多个相对更容易的子任务,对每一个子任务学习一个其专属的回归模型,从而避免了仅靠单一模型无法很好地处理所有情况的问题。首先离线训练一个以深度图作为输入的深度卷积神经网络分类器GoogLeNet。不同于之前手势分类器是按照相机视角不同来划分类别,本文的分类器是按照刚性对齐的手势不同来划分类别。对于手势分类器所能预测的所有类别,分别离线训练一个对应于类别的级联随机森林回归器。在测试阶段,输入深度图到手势分类器直接预测出一个手势类别,然后再次把深度图送入预测类别对应的级联随机森林回归器,最终输出相机坐标系下的人手关键点三维坐标。密集丰富的实验验证了本文提出的分类指导回归算法的高效性和有效性。从定性角度来看,本文分类指导回归算法大幅度地领先于全体样本整体回归算法。与其他的优秀算法相比较来看,本文分类指导回归算法依然能够在大多数最大允许误差阈值区间内领先于其他优秀算法。从定性角度来看,本文方法不但能够处理好复杂的大角度高遮挡的手势情形,同时还能保持很高的帧率,完全能够满足实时精确的应用场景。
其他文献
在理论化学中,图的谱半径、Wiener指数、Hosoya指数和Merrifield-Sim-mons指数为较典型的拓扑不变量,近年来,有关这些指数的极值问题被大量研究. A(G)表示图G的邻接矩阵,φ(G;
排序问题是一类重要的组合最优化问题,由于它有着深刻的实际背景和广阔的应用前景,引起了广泛的关注。排序问题具有的特点是:模型种类繁多,对某一模型的算法,只要将模型的限制
模糊集理论是利用集合论方法处理现实世界中不确定性问题和亦此亦彼的模糊现象的一种数学工具。粗糙集理论是继概率论、模糊集理论和证据理论之后的又一个处理不确定性的数学工具,可以用来分析不精确、不一致或不完整等各种不完备信息,从中发现隐含的知识,揭示潜在的规律。将模糊集和粗糙集相结合一直是国际上相关领域的一个研究热点。本文主要考虑模糊划分的概念及其与模糊等价关系的一一对应性,定义基于模糊划分诱导的模糊粗糙
学位
本文由两个部分组成。在第一部分,我们考虑了紧致带边黎曼面上G-向量丛的规范变换流,并利用热流方法,证明了该流的短时间存在性与广义解的长时间存在性。作为推论,我们给出了Uhle
细胞自动机(Cellular Automata,CA)首先是由John von Neumann于1951年正式提出,其实质是一类时间、空间都离散的特殊的有限状态机。细胞自动机具有的规则简单性、局部连接性及高
线性矩阵方程已经广泛应用于控制理论,神经网络设计,结构设计与应用,线性最优控制等领域中.线性矩阵方程求解问题的研究引起了国内外很多的学者的关注,通过对它的研究得到了
Bernstein算子是一类重要的线性算子,自1912年由Bernstein首次提出以来,Bernstein算子在逼近论及计算数学、神经网络等相关领域得到了很多应用,是研究其他算子的基础和有力工具,