论文部分内容阅读
随着互联网和信息技术的快速发展,多媒体信息资源越来越多,对多媒体信息进行检索和分类也越来越重要。广播、会议、互联网上的语音数据越来越多,如何在海量的语音库当中搜索出我们需要的信息,成为亟待解决的问题。所谓语音文档检索是指,根据用户输入的查询请求,在语音资源中搜索和返回与查询请求中关键词相关联的语音段或语音文件的处理过程。语音文档检索一般包含两个阶段:离线索引阶段和在线检索阶段。离线索引阶段主要包括语音识别和索引构建两大模块。在线检索的性能和这两个模块息息相关。语音识别结果有三种形式,One-best、N-best和Lattice形式。Lattice是一种有向无环图形式,包含的候选结果多,可以补偿语音识别错误带来的影响,有效地提高系统的检索性能。因此目前研究人员多采用Lattice作为语音识别的结果,基于Lattice的语音检索也成为主流。在汉语语音识别中,和汉字、词和短语句子相比,音节因为其数量有限,表达内容丰富而成为基元,更重要的是音节可以有效地解决词表外词(OOV)的问题。在基于音节Lattice的语音文档检索中,Lattice冗余信息多,结构复杂,不便于处理,本文研究了在Lattice基础上生成混淆网络的方法。混淆网络是一种更为简洁高效的网络,接近线性结构,包含的信息丰富并且易于后续处理。和Lattice相比,基于混淆网络构建的索引占用空间更小,更适合后续检索。同时为了提高检索的精度,本文基于文本分析的结果,筛选出词频较高的一些音节组合作为词片,生成音节和音节词片的语言模型,再生成字词混合的Lattice,将其转化为混淆网络,实验证明这种方法有效的提高了识别率。传统的向量空间模型(VSM)应用于多候选结果的语音文档检索时存在不合理性,本文针对传统的VSM模型进行了改进,改变了权重计算方法,使之更适合基于多候选的混淆网络检索。实验表明,词片的引入大大提高了Lattice和混淆网络的识别率,同时混淆网络的索引形式相比Lattice更为简洁高效、易于处理。同基线系统的检索结果相比,基于混淆网络的语音文档检索精度在准确率和结果排名方面都有大幅提升。