论文部分内容阅读
伴随着科学技术的不断发展,目前已经将机器人运用到了生产生活中的各个方面,从而使其替代人类进行繁琐和高危的的任务,使得人们生活质量得到不断的提高。而语音识别作为人机交互技术的重要环节,越来越受到研究者的关注[1]。目前对越南语语音识别方面的研究主要集中在声学模型、语言模型等关键技术上。但在不同的领域当中,无论是声学层面还是语言层面,不同的领域术语之间都存在着明显的差异性,导致这些通用领域的语音识别方法很难直接适用于特定领域。本文就是针对越南语旅游领域问句语音识别系统构建方法的研究。主要探讨了基于领域术语声学特性的声学模型构建方法和融入领域知识的语言模型构建方法。本文的主要工作包括以下几个部分:(1)研究了针对越南语旅游领域问句的声学模型构建方法。该方法首先确定了以音素作为识别基元,从而使得所构建的声学模型规模适中。然后对语音语料库中音素的上下文分布情况进行了分析和统计,确定了构建三音素声学模型来解决越南语协同发音的问题。接着,建立了基于音素发音特性的决策树问题集,采用决策树状态共享策略对声学模型的训练过程进行优化,从而解决了数据稀疏的问题。最后,通过对比试验,验证了基于决策树状态共享的三音素声学模型构建方法的有效性。(2)研究了针对越南语旅游领域问句的语言模型构建方法。该方法首先确定了适合于旅游领域问句语音识别的语言模型类别。然后,根据旅游领域问句中询问对象的不同对问句形式进行了划分。其次,对越南语问句所需要遵循的语法规则进行了总结。接着,基于这些语法规则对不同形式的问句结构进行了统计,确定了语言模型中的具体描述内容,从而构建了适合于旅游领域问句识别的规则语言模型。(3)通过实验,采用不同的评价指标对旅游领域问句语音识别系统的性能进行了分析与总结,验证了此方法的有效性。