论文部分内容阅读
随着计算机在现代社会影响的迅速扩大,传统的基于鼠标和键盘的人机交互技术越来越显示出它们的局限性,所以研究多模式人机接口技术在现实生活中变得越来越重要。手语识别作为多模式人机接口领域的一项重要组成部分,已经吸引了越来越多的专家和学者们的注意。 手语的建模包括建立理论模型和计算模型。理论模型关注的是理论上对手势手语功能的理解。理论模型根据实验或假设,对手势手语相关问题进行归纳和总结,进而为计算模型提供有价值的指导。这些研究为建立手势手语计算模型提供了良好的材料,许多计算模型以这些理论模型为基础。手语识别作为计算模型中的重要内容,其目标就是通过计算机提供一种有效的、准确的机制将手语翻译成文本或语音使得聋人和听力正常人之间的交流变得更方便、快捷。 理想的手语识别应能处理大量的、一般既定的词汇;最大可能地满足使用者的移动需要;实时准确、在复杂环境下鲁棒地进行识别,并且这种识别应该面向真正的、非特定的操手语者。目前非特定人大词汇量手语识别与特定人系统相比还有较大的差距,造成这一差距的原因包括数据本身的差异性矛盾与训练样本的缺乏。数据差异性矛盾使得非特定人手语识别中提取手语数据有效的共同特征非常困难。训练样本缺乏,使得在实际应用中模型的表达能力与样本缺乏之间的矛盾已经成为制约识别系统效果的瓶颈。这些问题的解决将对中国手语识别及其他相关领域具有非常重要的意义。 针对这些问题,本文的主要研究目的是探索原始训练样本缺乏情况下分类器与训练数据集的设计,以及手语数据差异性的分析与处理,从而给出了解决问题的策略与思路。具体的,本文的主要研究内容概括如下: (1)在原始训练样本缺乏情况下分类器与训练数据集设计方面,提出基于mean-shift的动态手势手语合成策略及合成数据驱动方法,利用mean-shift算法可以方便、快捷地得到密度函数梯度的变化方向,从而控制衍生的方向和强度。我们设计的基于mean-shift的动态手势手语合成策略可以从向内衍生和向外衍生两种方式考虑,分别对应数据的泛化和异化过程。生成数据的过程不是随机的,而是自觉的遵守了对数据差异性的选择,这正是算法本身优越性的所在。生成过程对手语不同时刻、不同组成部分的数据处理强度