论文部分内容阅读
手语是聋哑人交流的主要手段,由于绝大多数正常人不会手语从而导致了聋哑人与普通人之间的交流障碍,手语识别对于促进聋哑人与正常人间的交流,方便聋哑人的生活有重要意义。计算机视觉、机器学习等技术的发展为手语识别提供了全新途径。通过分析原始视频图像数据,从中提取特征对手语词进行描述,为每一个手语词建立一个合适的模型,最终将手语视频分类翻译为文本信息。本文利用微软开发的Kinect for windows体感传感器作为输入硬件,利用Kinect SDK提供的深度数据图像以及相应的人体骨骼点位置估计进行手语识别研究。首先,研究了基于深度图像和彩色图像的手掌跟踪算法,提出了一个深度和彩色图像结合的手掌分割算法;接着,研究了手语的各种特征描述,针对手语识别问题提出了一个高效的手形特征;然后,比较了各种特征分别利用SVM(Support Vector Machine,支持向量机)、ELM(Extreme Learning Machine,极限学习机)、HMM(Hidden Markov Model,隐马尔科夫模型)三种不同分类器进行手语词识别的准确率;同时,建立并发布了包含彩色数据及深度数据的中国手语数据集;最后,分别利用CRF (Conditional Random Fields,条件随机场)及其改进模型LDCRF(Latent-Dynamic Conditional Random Field,潜在动态条件随机场)以及基于BPNN(Back Propagation Neural Network,反向传播神经网络)的WFBPNN (Weighted Feature Back Propagation Neural Network加权特征反向传播神经网络)对手语序列中的连音进行标记;并完成了小词汇量的连续中国手语识别。本文的主要研究内容如下:一、研究了手语识别的研究背景及意义,阐述了手语识别的研究现状,重点描述了手语识别面临的难点问题,简单介绍了本文章节分布。二、研究了Kinect传感器的数据获取及图像预处理。分别利用微软Kinect V2的SDK获取深度和彩色视频数据,对获取的视频数据进行预处理以实现准确地跟踪手掌,提取手掌区域;并选取Kinect的部分关键骨骼点的运动轨迹信息与手掌区域共同作为输入数据并提取特征。三、研究了手语识别中特征提取方法以及适用于手语识别的机器学习分类算法。在手掌区域提取形状特征Hu矩特征和HOG(Histogram of Oriented Gradient,梯度方向直方图)特征;针对Hu特征和HOG特征应用于手语识别计算复杂、精度低的问题,提出了计算简单的手掌形状特征:APF(Area Proportion Feature,面积比例特征);建立并发布了包含彩色数据及深度数据的中国手语数据集,在此数据集上,实验比较了上述三种形状特征分别应用SVM、ELM、HMM等分类器进行手语识别的正确率。四、提出了适用于连续手语识别任务的手语分割算法,以及手语帧标记方法。主要对条件随机场CRF及其相应的改进算法LDCRF进行了研究,并提出了基于BP神经网络的连续手语标记算法,通过实验表明这两种算法可以较好的完成手语分割任务。实现了小词汇量的连续中国手语识别。最后,总结了现有工作并展望了手语识别问题的未来发展方向。