论文部分内容阅读
随着计算机及互联网技术的飞速发展,大量音频信息被保存和记录下来。而随着音频数据的累积,如何在海量数据中快速发现用户感兴趣的音频也就成为语音领域研究的热点问题之一。以语音识别技术为基础,前人提出了一系列语音检索方案。一种方案利用大词汇量连续语音识别技术将语音转换成符号信息,在此基础上建立索引以实现检索。这种方案具有通用性强,检索效率高的特点,被广泛研究。但是,语音识别与检索系统性能与速度一直是制约语音检索发展的重要因素,还需要进一步改进,才能使面向内容的语音检索可以实用化。同时,相对英文来说,汉语语音检索研究相对较少。汉语有其本身的特殊性,如何提高汉语语音检索系统的性能也是需要研究的问题。本文针对面向内容的汉语语音检索进行研究。关注语音识别与语音检索两方面。在前人语音识别研究的成果的基础上,希望利用更少的时间完成精确的语音识别,为语音检索系统提供一个优秀的前端。同时,对已有的检索工作进行改进,重点研究了基于词的汉语语音检索。同时讨论了基于音节的检索以及不同检索方案的融合问题。希望使用较少时间的同时实现更高性能的检索。为了达到上述目标,在语音识别方面本文采用加权有限状态转换器的相关技术构建语音识别网络。针对这种方案在语音识别时所遇到的一些问题,提出了“同步剪枝合成算法”,“基于状态转移数准则的空状态转移去除算法”以及“词典错位的网络构建算法”,有效地对识别网络进行了优化。同时,提出了“基于词格的快速词图生成算法”以进行快速语音识别。实现了一个语音识别系统WDecoder。实验表明,它比HDecode快6.7~9.5倍,比Juicer快3.6~4.7倍。在此基础上对检索进行了研究。提出了“查询内容扩展的语音检索方法”,对基于词的语音检索系统进行了改进。与基于词的检索基线系统相比,在用于测试的两个数据集上检索系统的EER相对改进了41.85%与41.00%。同时,针对语音检索系统检索速度相对较慢的问题,提出了“查询内容分组检索”方案,使得系统的检索用时相对减少了43.52%~72.03%。基于上述的研究与改进,本文最终实现了一个面向内容的汉语语音检索系统,实验证明,它可以高效高性能地完成对音频信息的检索工作。