论文部分内容阅读
从机器人的发展和国内外对语音识别技术的研究现状来看:把语音识别技术与机器人控制技术相结合,正成为目前研究的热点。特别是福利机器人的人机交互问题的研究,不但具有较好的理论意义,而且有较大的实用价值。比如:残疾人可以用简单的口令来控制机器人轮椅的运动等。 尽管国内外对语音识别技术进行了大量研究工作,取得了很多成果,但总的来说,目前,在语音识别系统的实际应用中仍存在以下几个主要问题: (1) 端点检测:任何一句话的单词之间一般是没有停顿的,这给全单词模型匹配带来了困难。研究表明,即使在安静环境下,语音识别系统一半以上的识别错误来自端点检测器。 (2) 语音信息的变化较大:语音模式不仅对不同的讲话者是不同的,而且对于同一个讲话者也是不同的。 (3) 语音的模糊性:说话者在讲话时,不同的词语可能听起来很相似,要识别它们还必须根据上下文的发音和其它有关的词法和句法规则。尤其对于汉语语音识别,由于汉语同音字多、词汇丰富,说话人在表达不同的词语时,听起来却十分相似,由此造成语音识别难的问题也比其它语言的同类问题要严重。 本课题是苏州大学机电学院智能轮椅机器人研究项目的重要组成部分,本文的研究目标是轮椅机器人语音控制系统的实现以及非特定人汉语孤立词识别算法的性能优化探讨,针对以上问题,本文探讨了如下几种解决方法: (1) 提出了一种新的“双门限分步端点检测算法”,实验证明具有较高的检测精度和较好的通用性。 (2) 在分析了当今语音识别领域的主流技术——动态时间规整(Dynamic Time Wraping,简称DTW)技术的缺陷后做出相应改进,提出了“结合放宽端点的监督式DTW”算法。 (3) 针对汉语语音识别中的模糊音问题,在模式识别部分引入分级识别技术。