论文部分内容阅读
语音识别即计算机自动语音识别,简单地说,就是让计算机能听懂人说话,将人说的话转换成计算机文本的一项技术。随着Internet和电子商务的飞速发展,语音识别技术将为网上会议、商业管理、医药卫生、教育培训等各个领域带来极大的便利。 随着近代计算机技术的飞速发展,孤立词语音识别系统已经取得了较高的识别准确率,非特定人、大词表、连续语音识别技术成为当前的研究热点。本论文通过条件随机域的方法,对连续语音识别系统中声学模型和语言模型进行了研究。 语音识别系统的模型通常由声学模型和语言模型两部分组成,分别对应于语音到音节概率的计算和音节到字概率的计算。在传统的基于HMM模型的语音识别系统中,声学层主要通过HMM进行建模,辅助一些其他的训练优化准则,例如:最小分类误差和最大互信息准则。语言模型主要分为基于规则的语言模型和基于统计的语言模型。其中,N-gram简单有效,被广泛使用。尽管基于HMM框架的语音识别技术对现代语音识别做出了巨大的贡献,但HMM模型本身存在着一些固有的局限性:一阶假设、独立性假设、训练准则导致声学模型之间可分离度差等,这些局限性限制了经典HMM在语音识别系统中的实际应用。 条件随机域模型作为一种统计和规则相结合的模型,允许特征非独立,允许增加各种不同形式的特征,并且有效地解决了标注偏置问题,其能够很好的弥补HMM模型的缺陷,因此本文首次将条件随机域的方法用到中文语音识别当中,利用条件随机域的方法分别建立声学模型和语言模型,并对得到的实验结果进行了分析。