论文部分内容阅读
随着信息时代的到来,计算机越来越广泛的应用到人类社会的各个领域,特别是语音文档检索技术的快速发展,使得人们能够迅速的从大量的语音信息中检索到自己想要的资源,将人们的日常生活变得越来越便捷。因此将特征提取技术和查询扩展技术融入语音识别平台,从而提高语音文档的识别率的做法有着非常广泛的应用前景。本文通过对传统特征提取技术的研究,筛选出三种具有代表性的特征提取技术(χ2统计、最大后验概率、逆文本词频),运用这三种特征提取技术对训练文档集进行特征提取,将所提取的特征作为基本特征,通过对基本特征的二次调权重整,构造出一种新的混合特征,大大的提高了语音文档的识别率,同时结合前向-后向算法,将Lattice文件中的后验概率信息与文本文档中的权值概率信息有效的融合到语音识别平台中,进一步提高了语音文档的检索效果。不仅如此,为了更好的解决实际应用中用户输入所存在的短查询问题,避免用户因缺乏特定领域的知识或者难以提交足够表达查询请求的完整信息所造成的检索效率低下的问题,本文将相关科技文章的智能检索方法运用到查询扩展技术中,提出以词的文档频率为基础,运用文档频率对训练文本中的特征项进行扩展,通过文档间的内在联系,将那些隐含着主题信息的词补充到查询列表中,从而丰富用户的查询请求;同时为了进一步提高语音文档检索平台的性能,将Rocchio原则引入到基于最相关扩展词的关键信息扩展技术(基于词的文档频率的扩展技术)中,取得了很好的检索效果,但是由于Rocchio原则需要通过大量的实验才可以确定优化参数,并且不同的训练文本集选取的优化参数也不同,更换训练文本则需要重新进行实验来测定,这无疑给查询扩展的研究工作带来十分巨大的困难。为此,本文在上述扩展方法的基础上,提出一种基于热度信息的扩展技术,通过引入热度因子来代替Rocchio原则中原有的优化参数,热度因子会随着不同文本集的变化而变化,同时也能反映出文本文档的内部联系,使得查询扩展技术更加具有普遍性。最终通过实验验证了这种基于热度信息的扩展技术进一步提高了语音文档检索平台的性能。