论文部分内容阅读
随着人工智能领域的发展,机器人从原始的工业应用开始向人类生活的各个角落渗透,机器人的智能化程度也越来越高。但是与机器人的交互方式一直没有太大的变化,普遍采用按键式或者键盘式交互方式,这些交互方式很不方便并且效率很低。为了提高与机器人交互的效率,已经开始有学者探索新的交互方式,语音就是其中最受亲睐的一种方式。实现与机器人的语音交互,涉及到语音的合成与识别以及语义的理解等多种技术,本文的重点则集中在语音识别方面。首先,阐述了与本文研究内容相关的国内外技术现状,并且分析了语音识别的整个流程。对语音信号和噪声信号的统计特性进行了分析,发现两者统计特性存在明显的差别,尤其是三阶累积量和四阶累积量。研究了一种噪声环境下高阶累积量端点检测方法,该方法使用语音信号的三阶和四阶累积量,利用噪声段和语音段的三阶、四阶累积量差异实现。随后以不同的信噪比分别在简单背景噪声和复杂背景噪声情形下,检验三阶四阶累积量用于语音检测的有效性。其次,介绍了用于语音信号处理的特征参数,对语音识别领域常用两个参数MFCC和LPCC的基本原理以及具体的求解过程进行了详细的阐述。动态时间规整算法是较早的语音识别方法,基本的动态时间规整计算量较大,其识别结果受端点对齐问题影响严重。针对这两个问题本文研究了一种改进的策略,即分段动态时间规整,这样有利于降低算法计算量和对端点检测结果的依赖。其主要思想是找到已知的匹配点,然后从已知点向两端进行利用动态规划算法进行计算,这样可以缩小搜索空间减小端点检测的影响。随后分别在特定人和非特定人两种情况下,使用分段动态时间规整算法对10个关键词进行了识别实验,分段动态时间规划算法在特定人情况下的识别效果要好于非特定人情况下。然后,分析和研究了两种HMM的各自优缺点,其中连续型HMM计算比较复杂,而且需要的训练数据较多,但是识别效果最好尤其是针对连续语音;离散型HMM计算相对简单,而且需要较少的训练数据,但是不能直接用于语音识别,这是因为语音的特征向量是连续空间,因此本文研究了一种先利用K-MEANS算法对语音特征向量进行量化之后再利用离散隐马尔可夫模型的方法。接下来使用实验平台数据,实现了离散型HMM语音识别算法以及10个关键词HMM模型,并且在离线的情况下检验了离散型HMM算法的识别效果。最后,在实验平台上实现了基于K-MEANS特征量化和离散型HMM的在线语音识别系统。整个系统可以分为采集模块、检测模块、识别模块和控制模块,为了提高整个系统的实时性系统采用多线程和消息的通信方式。利用语音控制机器人需要满足两个条件:1)实时性,语音控制命令发出后需要在很短的时间内能够响应;2)准确性,准确理解语音控制命令是语音控制系统的基础。本次实验平台是履带式机器人,随着机器人运动速度的增加机器人自身噪声不断增加,因此机器人运动速度对识别的准确性有一定的影响。在本文最后对整个系统的各个模块进行了集成测试,测试内容包括实时性、识别率以及速度对识别率的影响。