论文部分内容阅读
摘 要:针对我国听力、语言残障人士交流困难的问题,文中设计了一款“你说我懂”移动设备手语识别系统。该系统可装载在手机、平板等移动设备上,能够对手语进行实时传输分析并转换成音频输出,解决了残障人士与正常人沟通不畅的难题,具有良好的社会效益与经济效益。
关键词:手语识别;同步翻译
1 作品简介
我国听力、语言残障人士超过2 000万人,然而全球有近5亿人饱受交流障碍的困扰。聋哑人之间基本的交流方式是“手语”,虽然这使他们内部之间的交流方便很多,但与正常人交流时,却常常因为对方不理解手语造成交流困难。“手语识别”是指通过采集设备获得聋哑人的手语数据,采用模式识别算法,结合上下文知识获知手语含义,进而翻译成语音,传达给不懂手语的正常人,从而“听懂手语”。
现有的主流手语识别设备是基于数据手套的手语识别系统,利用数据手套和位置跟踪器测量手势在空间运动的轨迹和时序信息,其缺点明显,如穿戴复杂,设备昂贵,不易携带与推广。基于此,本课题组设计了一套便于装载在可移动便携设备如手机、平板上的手语识别系统,能够对手语进行实时传输分析并转换成音频输出,为打手势者配备“同步翻译师”,解决交流困难这一难题。手语示例如图1所示。
该手势识别系统主要基于图像处理与分析技术,考虑到实时交流的通畅性和便利性,设计的识别系统选择手机等移动设备作为图像摄取端和文字语音输出端,即将照相机镜头对准对方手势进行拍摄,避免了传统加载诸多传感器带来的操作不便和数据处理方面的困难。
识别系统将主要的处理模块以“中继服务器”的形式分离出来,通过与手机终端设计的App结合使用,对拍摄手势进行实时处理,随后以文字的形式显示或语音的方式播放,达到有需求就能下载,下载后就能立即翻译的效果,辅以文字和语音等多种输出形式,辅助解决聋哑人与常人交流困难的问题,初步实现“你说我懂”,我说你懂的顺畅交流。
该系统主要包括手语识别技术与手机编程技术。输入便携式设备拍摄的连续手势视频流,需要进行稳像增强、时空特征点提取和多类别手势模型学习与识别等技术处理。在模型训练阶段,每一个手语词采集多个训练样本,提取训练样本的特征,并通过支持向量机区分判别学习,得到一个统计模型对该手语词进行图像特征建模。在识别阶段,对输入的视频序列用同样的特征提取方法,生成轨迹和手型两个通道的特征描述,与库中的所有词汇模型进行匹配,获得候选词汇集。在得到手语单个词汇的识别结果后,由于无法保证所有词汇都识别正确,因此可根据语言模型对识别结果进行修正,得到更为合理和正确的结果。此处无需数据实时传输,只需离线时下载手机App应用及其支持库(手语词汇模型库),输入时提取特征进行识别即可。其优势在于不需联网,信号无关,节省电量,解决了便携式设备的最大问题。
2 创新性
(1)将“手语”翻译成“口语”,从技术应用角度消除了交流不便给聋哑人带来的苦恼,实现对智能体的手语控制,给予机器人示范学习,改善和提高残疾人士的生活、学习和工作条件,带来一种交流上的变革式发展。
(2)作品以手机等移动便携式设备作为输入输出端。据统计,我国的手机用户已接近13亿,除特殊情况,几乎每人都有手机。将手机作为系统载体将使该应用得到极大拓展,其使用的便捷性和扩展性不言而喻。
(3)随着计算机性能的逐步提高和各领域对计算机使用的不断深入,用户对计算机使用方便程度和人机交互的自然性要求越来越高,尤其在虚拟现实和可穿戴计算领域中更为明显,直观、自然和友好的多模式人机交互方式很有必要,手语识别不仅可以为聋哑人提供帮助,还可推动人机交互研究的发展。
3 市場前景
从认知科学的角度研究人的视觉语言理解机制,提高计算机的人类语言理解水平,以此应用于计算机辅助哑语教学、电视节目双语播放、虚拟人研究、电影制作中的特技处理、动画制作、医疗研究、游戏娱乐等方面。
由此看出,本作品的推广前景十分广阔。军事手语识别、医疗手术手势识别、体育裁判手势识别等都可以此系统作为开发平台。如在医疗方面,可以用来显示手术医生对手术工具需求手势的含义;在军事方面,在某些特殊的作战条件下,作战人员不能以语言进行交流,可通过手语及其识别系统完成信息交流,用该系统显示作战手势的含义……作为一个开放式系统,可以不断向其中补充特定手势与对应含义,将其储存并形成数据库,从而实现功能和应用领域拓展,为人机交互提供新的途径。
未来,可将手语技术继续整合于功能日益强大的个人助理终端,完善软件功能,基于计算技术领域最新成果,为用户提供新颖和更加人性化、个性化的服务。如利用无线定位技术和行为识别技术,实时感知聋哑人所处位置和状态,向用户或监护人提供及时的视频播放服务或监护提示服务等。
该系统应用前景广阔,普适性好,二次开发性强,使用方便,易于推广,具有庞大的市场潜力和巨大的经济效益。
关键词:手语识别;同步翻译
1 作品简介
我国听力、语言残障人士超过2 000万人,然而全球有近5亿人饱受交流障碍的困扰。聋哑人之间基本的交流方式是“手语”,虽然这使他们内部之间的交流方便很多,但与正常人交流时,却常常因为对方不理解手语造成交流困难。“手语识别”是指通过采集设备获得聋哑人的手语数据,采用模式识别算法,结合上下文知识获知手语含义,进而翻译成语音,传达给不懂手语的正常人,从而“听懂手语”。
现有的主流手语识别设备是基于数据手套的手语识别系统,利用数据手套和位置跟踪器测量手势在空间运动的轨迹和时序信息,其缺点明显,如穿戴复杂,设备昂贵,不易携带与推广。基于此,本课题组设计了一套便于装载在可移动便携设备如手机、平板上的手语识别系统,能够对手语进行实时传输分析并转换成音频输出,为打手势者配备“同步翻译师”,解决交流困难这一难题。手语示例如图1所示。
该手势识别系统主要基于图像处理与分析技术,考虑到实时交流的通畅性和便利性,设计的识别系统选择手机等移动设备作为图像摄取端和文字语音输出端,即将照相机镜头对准对方手势进行拍摄,避免了传统加载诸多传感器带来的操作不便和数据处理方面的困难。
识别系统将主要的处理模块以“中继服务器”的形式分离出来,通过与手机终端设计的App结合使用,对拍摄手势进行实时处理,随后以文字的形式显示或语音的方式播放,达到有需求就能下载,下载后就能立即翻译的效果,辅以文字和语音等多种输出形式,辅助解决聋哑人与常人交流困难的问题,初步实现“你说我懂”,我说你懂的顺畅交流。
该系统主要包括手语识别技术与手机编程技术。输入便携式设备拍摄的连续手势视频流,需要进行稳像增强、时空特征点提取和多类别手势模型学习与识别等技术处理。在模型训练阶段,每一个手语词采集多个训练样本,提取训练样本的特征,并通过支持向量机区分判别学习,得到一个统计模型对该手语词进行图像特征建模。在识别阶段,对输入的视频序列用同样的特征提取方法,生成轨迹和手型两个通道的特征描述,与库中的所有词汇模型进行匹配,获得候选词汇集。在得到手语单个词汇的识别结果后,由于无法保证所有词汇都识别正确,因此可根据语言模型对识别结果进行修正,得到更为合理和正确的结果。此处无需数据实时传输,只需离线时下载手机App应用及其支持库(手语词汇模型库),输入时提取特征进行识别即可。其优势在于不需联网,信号无关,节省电量,解决了便携式设备的最大问题。
2 创新性
(1)将“手语”翻译成“口语”,从技术应用角度消除了交流不便给聋哑人带来的苦恼,实现对智能体的手语控制,给予机器人示范学习,改善和提高残疾人士的生活、学习和工作条件,带来一种交流上的变革式发展。
(2)作品以手机等移动便携式设备作为输入输出端。据统计,我国的手机用户已接近13亿,除特殊情况,几乎每人都有手机。将手机作为系统载体将使该应用得到极大拓展,其使用的便捷性和扩展性不言而喻。
(3)随着计算机性能的逐步提高和各领域对计算机使用的不断深入,用户对计算机使用方便程度和人机交互的自然性要求越来越高,尤其在虚拟现实和可穿戴计算领域中更为明显,直观、自然和友好的多模式人机交互方式很有必要,手语识别不仅可以为聋哑人提供帮助,还可推动人机交互研究的发展。
3 市場前景
从认知科学的角度研究人的视觉语言理解机制,提高计算机的人类语言理解水平,以此应用于计算机辅助哑语教学、电视节目双语播放、虚拟人研究、电影制作中的特技处理、动画制作、医疗研究、游戏娱乐等方面。
由此看出,本作品的推广前景十分广阔。军事手语识别、医疗手术手势识别、体育裁判手势识别等都可以此系统作为开发平台。如在医疗方面,可以用来显示手术医生对手术工具需求手势的含义;在军事方面,在某些特殊的作战条件下,作战人员不能以语言进行交流,可通过手语及其识别系统完成信息交流,用该系统显示作战手势的含义……作为一个开放式系统,可以不断向其中补充特定手势与对应含义,将其储存并形成数据库,从而实现功能和应用领域拓展,为人机交互提供新的途径。
未来,可将手语技术继续整合于功能日益强大的个人助理终端,完善软件功能,基于计算技术领域最新成果,为用户提供新颖和更加人性化、个性化的服务。如利用无线定位技术和行为识别技术,实时感知聋哑人所处位置和状态,向用户或监护人提供及时的视频播放服务或监护提示服务等。
该系统应用前景广阔,普适性好,二次开发性强,使用方便,易于推广,具有庞大的市场潜力和巨大的经济效益。