论文部分内容阅读
信息检索本质上是语义检索,虽然现有的搜索引擎数目众多,但其采用的信息检索技术大多是基于独立词索引,由于同义词和多义词的大量存在,因此检索效果并不理想,信息检索的查全率和精确度都不高,很难今用户满意。针对以上这些问题,近年来,一种全新的,基于文本语义分析的信息检索技术—潜在语义索引(LatentSemanticIndex-LSI)技术应运而生,并且得到了迅速地发展。
潜在语义索引是一种基于向量空间模型的信息检索技术,它通过分析大量文本描述中词语的使用模式,建立文档的潜在语义向量空间描述模型,与基于关键词向量空间模型相比,它通过奇异值分解(SVD)等处理,消除了自然语言表述中的同义词和多义词的影响,提高了信息检索的精度。理论分析和实验结果证实了潜在语义索引能够取得更好的检索效果。基于LSI的信息检索处理中,语义空间的建立和更新是非常耗时和难以把握的关键处理技术,影响了LSI的推广应用。本文在系统分析了潜在语义索引原理的基础上,针对这两个问题进行广泛地讨论和研究。具体来说,本文主要工作包括::1.在剖析了当前的主流信息检索技术—全文检索技术的特点以及不足的基础上,阐述了基于潜在语义索引的信息检索技术。重点论述了潜在语义索引的理论基础,基本原理,主要特点及应用领域。
2.LSI通过降维去“噪音”,消减词和文档之间语义模糊度。本文讨论分析了现有的几种LSI降维的方法并提出了一种根据矩阵向量相似度确定k值的方法,同传统方法相比可以更加快速有效地确定降维后向量空间的维数(k值)。
3.讨论并分析了SVD几种更新的方法,包括重新计算SVD(Recomputing),直接添加新向量(Folding-in)和一种近似的SVD更新方法(SVD-Updating),在此基础上提出了一种SVD更新策略,兼顾了更新的时间效率和更新后向量空间语义表示的准确度。
4.实现了一个基于LSI的信息检索系统原型,在系统中实现了本文提出的k值选取方法和SVD更新策略,并在信息检索实验中取得了良好的效果。
本文旨在对语义检索技术—潜在语义索引的理论和实现进行了深入的分析和探讨,其中的分析和论述对于实际系统的开发具有一定的指导作用,另外,有关语义向量空间的降维和更新的思想和技术也可以应用到其它智能信息处理系统中,以提高处理效果和效率。