论文部分内容阅读
随着语音识别技术深入广泛的应用,它越来越将成为模式识别中的一个非常重要的研究课题,它的发展将会对未来的生活、工作带来极大的影响,而且该技术也将会成为未来十年的主流技术。近年来,由于在语音识别的研究中大词汇量、非特定人、连续语音识别是最困难、也最具有挑战性的一个课题和其广泛的应用前景,所以,它吸引众多的机构和公司相继投入研究和开发。虽然基于汉语的大词汇量连续语音识别系统近年来取得了快速的发展,但其性能还远远不能满足大规模应用的要求,为此对该技术进一步的研究有着非常重要的意义和价值。在大词汇量连续语音识别系统中,语言模型的地位是非常重要。其性能的好坏直接影响到整个语音识别系统的使用范围和识别效果。因此,构建和更新一个可靠的语言模型对语音识别系统是非常关键的。本文首先详细讨论了统计语言模型的工作原理、平滑技术、评价标准等相关理论。接着,在Linux环境下搭建HTK建模平台,利用Linux下强大的命令工具并通过编写Bash和Perl脚本程序,完成对训练数据的预处理和分词,建立了能够达到HTK中语言建模工具HLM要求的语料库。然后,利用HLM建模工具完成对训练数据的不断训练,并生成一个Tri-gram的语言模型,然后对该语言模型的性能进行评估。由于识别领域内容的不断更新,导致语音识别系统中语言模型性能变差,在识别过程中出现大量的集外词。因此,提出了一种利用HTML Parser和PDFBox开发工具包进行编程来提取网页内容和PDF文档作为训练数据来源自动构建更新语言模型的完整的解决方案,采用该方案可较好地改善语言模型的性能。最后,本文大概地介绍了大词汇量连续语音识别系统的整体框架,并通过具体的实验来验证了所建立语言模型在语音识别系统中的识别效果。由于识别结果不可能完全正确,因此本文探讨了一种对识别后的内容、时间进行修改和调整的方法,保证了识别后结果与说话人真实内容的一致,从而提高了语音识别的正确性。