基于RGB-D图像多模态融合的手势识别研究

来源 :武汉科技大学 | 被引量 : 2次 | 上传用户:lzzwj
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
基于计算机视觉的非接触式手势识别方式作为一种自然而便捷的交互手段,在人机交互应用中扮演着越来越重要的角色。当前许多手势识别方法主要利用摄像机采集得到的彩色图像进行处理,这种方式普遍受到环境光照、背景复杂度以及人体肤色等因素的制约。在实际的人机交互应用中,上述因素往往难以控制,使得从复杂背景中提取出手势完成识别交互始终是一个难点。随着深度传感器的发展,获取RGB-D图像的方式更多、获取成本逐渐降低。同时,RGB-D手势图像中深度信息的引入能够克服背景及光照变化等因素的影响,进而提高识别算法的性能。然而,如何充分利用RGB-D图像中丰富的纹理信息与场景空间信息是一个需要考虑的问题。卷积神经网络等深度学习技术的出现则为RGB-D图像的深度利用提供了一个有效的途径。针对上述问题,利用Kinect传感器获取RGB-D图像,基于卷积神经网络与特征融合理论,开展多模态融合的手势识别方法研究。具体研究内容如下:(1)针对RGB-D图像的不同模态之间的互补与多层特征之间的互补特性,提出一种基于双流卷积神网络的多模态、多层次特征提取方法。通过构建两个残差网络来分别提取不同模态的特征,并在每个卷积层次上进行输出,得到不同抽象层次、不同模态的特征等待后续处理。(2)基于上述的特征,充分考虑不同模态对于最终识别结果的影响因素不一致,设计一种特征权重自适应学习算法。通过强制性将特征分割成独立与共享两部分特征然后在根据自适应权重进行融合,得到更加紧凑和具有区分力的多模态融合特征。(3)设计一种手势分类识别模型,并设计其结构和参数。将特征进行融合后得到不同抽象水平的多模态融合特征,将其按照时序进排序然后输入到LSTM网络中,将网络的输出接到Softmax层,最终得到手势的分类预测结果。(4)为实现人手与计算机的交互行为和验证本文手势识别方法的有效性,建立了多模态手势识别系统。通过Tkinter GUI图形化开发工具将本文的算法进行封装并对系统界面和功能进行设计,最终验证了本文手势识别算法的可行性和准确性。
其他文献
<正>近年来,我国光伏产业迅猛发展,2014年我国光伏电池组件总产量超过3300万千瓦,产品销售量全球第一,也成为我国在国际上具有竞争力的产业之一。在国内光伏产业的迅猛发展的
在日语学习中,会碰到很多授受表达,对于日语学习者来说,如何正确使用授受表达是个较难掌握的难题。日语的授受表达不仅包括物品的授受关系,而且包括恩惠的授受关系。日语学习
随着全球经济一体化进程的加快,我国酚醛树脂行业迎来巨大机遇的同时,也面临着前所未有的挑战。为在竞争日益激烈的国际化市场中求生存、求发展,就必须加大力度进行科技创新,
本文在对当前企业会计信息化进行定义的基础上,分析了信息化造成企业风险变化的原因,据此总结了企业会计信息化的四类风险以及风险管理要素,并提出了企业会计信息化风险管理的基
随着全球经济—体化进程的加快,我国港口在国际区域经济与合作中的特殊地位与作用日渐突出,港口作为全球性资源配置的枢纽。本文透视我国港口群物流资源及区位优势,结合港口
涵洞是交通工程的重要组成部分,无论是在工程数量还是工程造价上,在公路工程中,都占有相当的比重。而传统的混凝土涵管在使用过程中出现了一些无法克服的缺陷,如使用寿命短、耐腐
我国传统铁路隧道洞门根据地形特点分为基本型、变化型、和特殊型三大类十六种形式,但始终脱离不了端墙、柱式的形式。随着铁路建设力度的加大,这些老式的洞门已不适应现代工程
本文主要从功能与原则两方面探讨了讨论法教学在历史教学中的运用。
佛教是发源于印度的一种宗教,13世纪佛教却在印度归于沉寂。本文试从印度佛教生存的外部环境和印度佛教内部分裂等角度,简要分析佛教在印度消亡的原因。
期刊
运用数学方法将实验数据处理成某种数学模型,这是一切技术科学、自然科学实验的基本目标之一.本文利用PC—1500袖珍计算机对油脂实验数据进行了拟合处理和绘图输出.并分如下