论文部分内容阅读
手语通过手的形状、位置、运动、朝向和面部表情等通道表达特定的信息,是聋哑人与聋哑人之间、聋哑人与健听人最主要的交流方式。手语识别研究能够使得有听力障碍的人与外界交流更为便捷。随着计算机性能的逐步提高,自然的智能人机交互方式在人们日常生活中越来越重要。自然的人机交互就是利用人的声音、表情、手势等人类自然语言与计算机进行交互,在人与计算机之间实现类似于人类之间的自然交互方式,也就是拟人化的人机交互。手语手势识别研究可以促进基于人的表情、手势、姿态等多通道信息融合的拟人化人机交互技术的发展。手语手势识别对提高计算机的人类语言理解水平和发展多模式人机接口技术具有重要意义。手语手势包含手形、手臂运动、朝向和位置等丰富信息。不同类型的传感器可以从不同角度捕获这些手势动作信息。本文综合利用表面肌电(surface electromyography,SEMG)、加速计(accelerometer,ACC)和摄像头三种小型便捷、低成本的传感器在手势信息检测方面的优势,提出了基于多传感器信息检测和融合的手语手势识别方法,以提高多类手语手势动作的识别率和扩展可识别词汇量。本文主要的研究内容和研究成果有:(1)提出了基于SEMG幅值变化信息,利用64点移动平均窗技术和双阈值方法同步分割表面肌电、加速计和视觉三种传感器的有效手势活动段信号。降低了从连续输入的视频中分割手势活动段的难度。(2)从手势的空间形态上对手势进行了分析研究,将动态手势拆分成更小的识别单元,用动态要素和静态要素代替整个手势进行多流隐马尔科夫(Hidden Markov Models,HMM)建模识别,在后期对要素的识别结果进行整合。缩短了训练和识别时间,提高了识别率。(3)基于多传感器信息检测与融合,提出一种多级分类融合策略。该分类策略结合不同类型传感器在手语信息检测方面的优势,利用SEMG的幅值信息和手势图像的连通域将手语词库划分成几个子集,缩小待识别手语候选集,然后利用Sugeno模糊积分对几种传感器提供的局部决策进行融合,得到了比单传感器更高的识别率。针对201个高频手语词,三个受试者的识别率均在99%以上。(4)采用Visual C++和OpenCV技术,构建了一个基于表面肌电、加速计和视觉三种传感器的同步信号的采集系统。设计了合理的多线程算法使得系统能够同时进行采集、显示和保存任务。系统带有手势跟踪模块,使用Camshift运动跟踪算法对人手进行实时跟踪显示。