论文部分内容阅读
手语识别作为多模式人机接口领域的一项重要组成部分,已经吸引了越来越多的专家和学者们的注意。手语识别的研究目标是让机器“看懂”聋哑人的语言。这里“看懂”有两种含意,一种是将聋哑人的语言逐词逐句地转换为相应的书面语言,另一种是对聋哑人语言中所包含的要求或询问做出正确的响应。
本文的研究工作是针对基于统计学的手语识别展开的,文中主要包括对中国手语单字词、双字词、多字词识别方面的内容。目前对于手语识别,存在的基本问题有:解决手语数据样本匮乏情况下训练模型的问题,解决非特定人问题,以及如何提高识别系统的识别速度等问题。
统计学的手语识别通常需要大量的样本来训练模型,通过分析手语信号的特点——时序列变化,以及手语样本匮乏,提出使用半连续的隐马尔科夫模型(SCHMM)作为识别系统的识别方法。SCHMM不仅能很好的描述手语时序列变化的信号,而且由于所有状态共用几个概密函数,使得模型中的参数减少,可以用较少的样本来训练模型。实验结果很好地证明了这一点。
在如何提高识别系统的识别速度方面,观察到近来所开发基于统计学方法的手语识别系统中,识别过程大多采用单级的全局查找,即待识别词与词库中每一个词的模型(通过统计建模)进行计算,找到概率最大即为结果。当词库中词汇数量增加时,识别的速度将受到严重影响。目前如何提高手语识别系统的识别速度已成为国内外关注的热点问题。考虑到待识别词与词库中每一个词的模型进行计算是一种计算上的浪费,是否可以采用一种分层的思想来缩小搜索范围?基于此方面的考虑作者在本文中提出了一种具有多级分类的手语识别方法,并利用该方法设计实现了一种具有多级分类的手语识别器。实验表明多级SCHMM识别器与单级的SCHMM识别器相比,在保持识别率基本相同的情况下,识别速度得到了较大的提高。