论文部分内容阅读
查询扩展是信息检索研究的关键技术,是改进并提高信息检索效率的重要方法。鉴于用户知识表达的差异性、检索环境的多样性,用户往往需要尝试多次构造查询语句才能查询到理想的目标文献。传统查询扩展方法主要致力于同义替换原查询语句中的各个词语,但实践中这种扩展思想难以适应“一词多义”和“一义多词”的自然语言现状。潜在语义分析是一种知识获取和表达的方法,利用统计方法提取词项间的潜在语义结构,依赖矩阵运算可使语义相近的文献在多维空间中映射得近一些。将潜在语义分析技术应用于查询扩展处理中,能更好的挖掘并表达原始查询的语义,提高检索效率。本文介绍了查询扩展研究的国内外现状,通过比较各方法的优劣提出目前查询扩展的不足是无法准确表达查询语句的语义信息。文章引入潜在语义智能型检索方式,阐述了潜在语义分析法的产生背景、基本原理,结合语义词典的扩展优势和概率潜在语义分析技术,提出一种新的查询扩展方法。用小样本对方法进行测试,证明了该方法的可行性和有效性。论文的研究工作主要包括以下几个方面:(1)分析查询扩展研究的必要性,对国内外研究现状进行文献调研和总结,从计算复杂度、检索效率等方面分析比较目前各扩展方法的优势和不足,提出了现有查询扩展方法的局限性;(2)介绍了基于语义词典的查询扩展方法,分析了基于语义词典查询扩展方法的有效性和便捷性,该方法是查询处理模块应用语义词典的理论基础;(3)介绍了潜在语义分析、奇异值分解等方法的理论基础,经潜在语义分析削弱了同义和歧义对检索有效扩展的影响。用小样本集测试了潜在语义分析查询扩展的效果,也分析了尚可改进的不足之处;(4)逐步深入探究基于潜在语义分析的查询扩展,提出以概率潜在语义分析为主结合语义词典优势的语义查询扩展方法。文本聚类后在相关簇内查询扩展,与现有的几种流行扩展方法对比,该方法的查全率和查准率更理想。今后将以本文研究为基础,把该方法应用到检索模型,实现更广泛应用。