论文部分内容阅读
随着人工智能等技术的快速发展,手势识别作为一种主要的人机交互方式逐渐成为热点问题。手语作为一种特殊的手势,也是语言障碍者的主要交流方式。手语携带有丰富的信息,具有良好的表达能力。一般无语言障碍者不具备手语技能,基于计算机视觉的手语识别的研究,既能方便语言障碍者和无语言障碍者之间的交流,又对人机交互的发展有着重要意义。本文通过Kinect传感器提取手语过程中的运动轨迹和关键手型作为实时手语识别的依据,对静态手型的特征提取、动态手语的跟踪和实时识别策略进行了研究和改进:(1)使用深度阈值和肤色阈值相结合的手部分割方法来获取手型:首先对获取的深度数据进行阈值分割,得到手部和小臂所在区域,将其映射到彩色图像空间,再进行肤色阈值分割;通过追踪骨骼点坐标来获取运动轨迹,并对其进行预处理。(2)提出了一种融合Hu矩和SURF(Speeded Up Robust Features)的特征提取方法:Hu+SURF-BoW。通过SVM分类器采取不同特征进对静态手语进行分类实验,实验表明Hu+SURF-BoW特征具有较好的识别性能,相对于Hu矩和SURF具有更好的稳定性。提出了一种在使用SURF对手语图像配准过程中剔除误匹配点的方法:以手型二值图的主方向作为基准,来确定两幅图像中的匹配特征点的相对角度,然后计算特征点的相对位置来剔除误匹配点。(3)将高速跟踪算法核相关滤波(Kernelized correlation filters,KCF)算法应用到手语跟踪当中跟踪双手,针对在手语过程中手部发生尺度变化和遮挡等情况,建立独立的尺度相关滤波器来进行多尺度追踪,使用Kalman滤波和自适应模型更新的策略来抵抗遮挡。(4)使用动态时间规整(Dynamic time warping,DTW)作为手语识别算法。使用端点放宽的条件约束、提前终止匹配和LB_BC下界函数剔除部分候选序列的方法,提高DTW算法的匹配速度。提出一种根据手部运动轨迹点的密度曲线采用滑动窗口来提取有效关键手型的方法,提高系统的实时性。最终设计手语识别系统,采用前文的识别算法和识别策略,完成对70个手语词的实时识别,识别率达到90.54%。