大词汇量连续语音识别系统的统计语言模型应用研究

来源 :西南交通大学 | 被引量 : 0次 | 上传用户:chenhy8208
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着语音识别技术深入广泛的应用,它越来越将成为模式识别中的一个非常重要的研究课题,它的发展将会对未来的生活、工作带来极大的影响,而且该技术也将会成为未来十年的主流技术。近年来,由于在语音识别的研究中大词汇量、非特定人、连续语音识别是最困难、也最具有挑战性的一个课题和其广泛的应用前景,所以,它吸引众多的机构和公司相继投入研究和开发。虽然基于汉语的大词汇量连续语音识别系统近年来取得了快速的发展,但其性能还远远不能满足大规模应用的要求,为此对该技术进一步的研究有着非常重要的意义和价值。在大词汇量连续语音识别系统中,语言模型的地位是非常重要。其性能的好坏直接影响到整个语音识别系统的使用范围和识别效果。因此,构建和更新一个可靠的语言模型对语音识别系统是非常关键的。本文首先详细讨论了统计语言模型的工作原理、平滑技术、评价标准等相关理论。接着,在Linux环境下搭建HTK建模平台,利用Linux下强大的命令工具并通过编写Bash和Perl脚本程序,完成对训练数据的预处理和分词,建立了能够达到HTK中语言建模工具HLM要求的语料库。然后,利用HLM建模工具完成对训练数据的不断训练,并生成一个Tri-gram的语言模型,然后对该语言模型的性能进行评估。由于识别领域内容的不断更新,导致语音识别系统中语言模型性能变差,在识别过程中出现大量的集外词。因此,提出了一种利用HTML Parser和PDFBox开发工具包进行编程来提取网页内容和PDF文档作为训练数据来源自动构建更新语言模型的完整的解决方案,采用该方案可较好地改善语言模型的性能。最后,本文大概地介绍了大词汇量连续语音识别系统的整体框架,并通过具体的实验来验证了所建立语言模型在语音识别系统中的识别效果。由于识别结果不可能完全正确,因此本文探讨了一种对识别后的内容、时间进行修改和调整的方法,保证了识别后结果与说话人真实内容的一致,从而提高了语音识别的正确性。
其他文献
近年来,随着互联网技术的飞速发展,人们在享受丰富多彩的数据时,同时也遭受着“信息过载”的问题。推荐系统可以一定程度上解决这个问题,推荐系统根据用户和项目的相关信息,
随着嵌入式系统硬件性能的不断提高和软件功能的日益丰富,系统固有复杂度已经成为提高嵌入式系统可靠性的主要瓶颈。传统的嵌入式软件平台都是单操作系统方案,电子装设备可靠
本文在LPCC特征参数提取方法的基础之上,提出了一种峰值特征和LPCC倒谱特征相结合的特征提取方法。这种方法有效地解决了MFCC计算复杂的缺点,并根据此特征提取方法构建语音识
云计算作为当今最热门的技术之一,带动了很多行业的发展,虚拟化作为云计算核心技术产生了很多分支,其中一个分支就是桌面虚拟化。借助虚拟桌面,用户几乎可以跟使用本地计算机
随着信息时代的到来,人们提出了随时随地访问信息的要求,移动计算作为计算技术和无线通讯技术相结合的产物应运而生。同传统的分布式计算相比,移动计算具有网络不对称性,资源
随着信息技术的发展,数字地球成为地球科学研究的重点,越来越受到人们的重视。而数字地球平台作为数字地球的展示、应用平台近年来发展迅速,在各方面影响着人们的生活。在众
随着信息化建设的迅速发展,越来越多的应用需要访问到多种异构数据源。在众多的异构数据的集成方案中,数据库中间件由于具有易扩展、访问透明、使用简单等优点,被广泛使用。
学位
随着互联网的高速发展,图像数据规模呈爆发式增长,研究如何在海量图像数据中高效检索出用户感兴趣的图像具有重大意义。传统的基于内容的图像检索算法主要采用图像的内容特征
图像去噪是数字图像处理的重要环节。现实中,图像在被获取和被传输时常常会受到各种各样的噪声的干扰,按其影响可分为加性噪声和乘性噪声模型两大类。对于乘性噪声一般可以通