论文部分内容阅读
通过语音与机器进行自由交流是人们多年以来的梦想。经过几十年的不懈努力,语音识别技术已获得了巨大进步,但仍难以满足实际应用的需要。如何进一步提高语音识别性能及其稳健性(Robustness)成为当前语音识别技术发展的瓶颈。人类在语音辨识过程中潜在地利用了众多信息源,而当前基于计算机的语音识别系统通常只利用了非常有限的声学和语言学信息,如语音的谱特征和N-gram统计语言模型。对于语音识别这种复杂任务来说,这些主要信息是远远不够的。有效地建模和应用其它辅助信息将有助于提高语音识别性能。混淆网络是多候选识别结果的一种紧凑表示形式,基于混淆网络解码可以最小化词错误率。基于混淆网络来融合辅助信息进行解码是提高识别性能的一个有效途径。本论文主要从混淆网络和辅助信息两个方面研究了改善语音识别性能的方法。在混淆网络方面,主要研究了混淆网络的高效构造方法和融合辅助信息的解码方法。在辅助信息方面,主要研究了几种重要辅助信息的有效建模和应用方法。本论文的主要研究内容和创新点具体如下:1.提出了两种高质量混淆网络的快速构造方法。一种方法通过对Lattice结构进行分段来降低混淆网络构造方法的计算规模,提高了混淆网络的生成速度,而其质量只有轻微下降。另一种方法利用具有最大后验概率的转移弧来指导混淆集合的构造,使算法复杂度降为线性。为了提高了生成混淆网络的质量,提出了基于K-L散度的弧相似性测度方法。最后,针对汉语语音识别任务,给出两种新的混淆网络结构:汉字混淆网络和逻辑混淆网络。2.提出了两类辅助信息的建模方法和应用于混淆网络的解码方法。为了利用词间的长距离依赖信息,提出了基于词义类对触发式语言模型的混淆网络解码方法。为了利用更多的辅助信息源,提出了基于多系统结果融合的混淆网络解码方法。实验结果显示两种方法可以使汉字错误率分别相对下降7.9%和10.7%。3.提出了利用声调辅助信息来改善汉语音识别性能的方法。在声学解码阶段,提出采用基于多空间分布的隐马尔可夫模型来对声调进行建模,解决了其特征不连续的问题。在双数据流隐马尔可夫模型框架下,对谱特征和基频特征进行同步解码,可使汉字错误率相对下降15.9%。在第二遍解码阶段,提出基于Supra-tone单元的独立声调建模方法。利用Supra-tone声调模型进行混淆网络解码,进一步使汉字错误率相对下降8.0%。4.开发了一个具有输入错误在线快速修正功能的汉语语音输入系统。通过利用汉字混淆网络,可以把句子级候选分解为汉字级候选,从而使用户能够利用候选快捷地修正近一半的识别错误。为了快速可靠地输入新的汉字,提出手写信息辅助的孤立汉字语音输入方法。这种方法具有比手写输入更快的速度,并且比单纯的语音输入更为可靠。综上所述,本文通过对混淆网络和辅助信息的研究提高了语音识别的性能和实用性。混淆网络的高效生成方法对于其它任务(如语音文档检索等)也会有很大帮助。采用触发语言模型和多系统结果合并的混淆网络解码方法为有效利用其它类型辅助信息提供了有益借鉴。对声调辅助信息的研究是充分利用声学辅助信息(如重音、语调等)的一个很好开端。利用混淆网络和手写辅助信息使语音输入错误的修正更为快捷可靠,这是辅助信息和混淆网络在语音识别任务中的一个成功应用。