论文部分内容阅读
近年来随着人工智能技术和计算机技术的快速发展,人机交互的方式也得到了很大的解放,基于手势的人机交互方式因其简单高效、自然方便而受到人们的青睐。手势识别通常又可以分为静态手势识别和动态手势识别,本文就这两个手势识别分支所做的研究工作主要如下所示:分析了手势识别的几种常用方法类别,包括基于模板匹配、基于数据手套、基于概率统计、基于无线射频、基于人工神经网络(Artificial Neural Network,ANN)五种方法分类,并比较各自的优缺点。随后提出当前主流的目标检测研究方向,即基于卷积神经网络(Convolutional Neural Network,CNN)的目标检测算法。在以上基础上提出一种基于改进YOLOv3(You Only Look Once:Version 3)的静态手势实时识别方法。首先,基于卷积神经网络YOLOv3模型,通过使用Kinect传感器采集的四种类型的Kinect图像(IR图像、Registration of RGB图像、RGB图像和Depth图像)数据集代替常用的RGB图像数据集,并且融合四类图像的识别结果,提高了识别准确率;然后,采用K-Means聚类算法对YOLOv3的初始候选框参数进行改进,提高了识别速度;最后,采用迁移学习的方法对基础特征提取器进行改进,减少了模型的训练时间。实验表明,所提方法对流式视频静态手势的平均识别准确率(mean average precision,mAP)为99.1%,识别速度为42 FPS(Frames Per Second),模型训练时间为12小时,相比改进前的YOLOv3方法,mAP提高6.6个百分点,识别速度提高4 FPS,模型训练时间减少25%。与其他先进的深度学习方法,如Faster R-CNN(Faster Regions with CNN features)、SSD(Single Shot MultiBox Detector)、YOLOv2(You Only Look Once:Version 2)和残差网络101(RetinaNet-101)相比,本文方法取得了较好的识别结果。最后又提出一种基于YOLOv3的连续动态手势识别方法。手势动作数据采集阶段使用基于信道状态信息(Channel State Information,CSI)的方式,通过对CSI数据进行自适应加权融合、卡尔曼滤波、阈值分割和数据转换生成灰度值图像,结合YOLOv3算法,对连续动态手势进行训练和识别。使用识别混淆矩阵的表达方式验证所提方法的有效性。实验结果表明,本文方法对自定义的四种连续动态手势的识别率达到94%,取得了较好的识别效果。