论文部分内容阅读
人机交互(Human-Computer Interaction)是指人与计算机之间的信息交换过程。如今,人机交互在人工智能时代起到重要作用,并朝着以用户为中心、个性化的生物识别以及全方位感知等方面发展。随着计算机技术的发展,人机交互已经在互联网产品中占据重要地位。在多种交互模式中,自然人机交互是强调以人为中心的交互方式,如语音交互、体态语言交互和其他姿态语言交互,这种交互方式让人和计算机的交流变得更加自然与通畅,因此应用前景更加可观。自然人机交互包含体感交互,它是计算机设备“感知”人的各种行为、语言以及表情等,从而实现人与计算机之间信息的交换。本文就以体感交互为前提,通过识别手部静态动作,然后将识别到手部动作的瞬间看作交互行为的开始,追踪手部的连续运动轨迹,从而实现简单的实时交互。人体动作识别作为人工智能领域的一个分支,在人机交互、虚拟现实、异常行为检测、智能家居以及运动分析等多领域得到广泛的应用。因此,越来越多的学者会把时间和经历投入到该方面的研究中来。其中,基于人体姿态的自然人机交互中存在动作识别准确率低,连续动作区分度差等问题。于是本文提出一种基于骨架信息的人体动作识别与实时交互的方法。该方法首先通过获取每种动作的18个关键点的二维坐标信息,然后利用堆叠模型训练数据,从而完成对人体动作的识别,最后根据识别到的手部动作完成轨迹的追踪,并进行动作拟合,实现人与机器的7种实时交互方案,包括4种单手交互与3种双手交互。相比于视频动作的识别,基于骨架信息的动作识别可以有效提高识别能力,并解决传统方法中存在光照、相机视角变化、遮挡以及运动干扰等因素的影响,并且具有较强的实用性,在未来的增强现实中起到决定性作用。本文的动作识别方法分为三个步骤进行,首先进行人体关键点的检测,本文采用VGG与两分支的卷积神经网络检测人体中18个关键点,并得到关键点的真实二维坐标信息。然后进行动作识别,采集不同动作类型的数据制作数据集,并搭建堆叠模型进行训练。为了增加实验数据的复杂度,采集数据集时,选取不同体型的人作为采集对象。由于大量的二维坐标训练时比较复杂且耗时,为了减少特殊样本数据导致的不良影响,并且使得数据整齐一致,要对数据进行归一化处理。最后在动作识别过程中也对特定动作,比如手部运动轨迹进行了追踪,并且在动作识别的方法中,与LSTM方法进行对比,发现本文采用的方法能够以较高的准确率进行动作识别。通过运动追踪,对动作运动轨迹估算,拟合出计算机能够适配的交互指令,达到实时交互的目的。