论文部分内容阅读
传统文献检索算法将用户查询关键词集与系统数据库存文献关键词集进行匹配,然后根据匹配程度的大小检测文献。实践证明,此方法存在一些不足。其一,词语具有多义性,很难确定文献中该关键词表达的具体含义是否符合检索内容。其二,多词一意,即文章的主题可以由不同关键词构成。因此,严格匹配可能会丢失大量相关文献。鉴于以上问题,LSA即语义分析法(Latent Semantic Analysis)在相似文献的检索中能取得较好的效果。LSA认为文献由关键词集通过某种结构联系起来。大量关键词的集合可以表示文献主题。LSA基于数学理论和计算机技术的结合,通过大量文献集的词频分析,建立关于关键词和文献的词汇-文献矩阵。然后通过奇异值分解,最终分解成词汇矩阵,起连接作用的对角矩阵,以及文献矩阵的乘积。因此,即使查询词关键词不在文献关键词集内,只要其主要内容和文献一致,也可以通过与语义分解后的文献向量进行相似度运算,进而检索出相关文献。本文在研究LSA产生背景以及基本原理及应用的基础上,着重讨论了从查询关键词集出发,对相关文献链建立的方法。文献关系链的建立依赖于相同关键词在不同文献中出现的频率。显然两篇不同文献中相同的关键词越多,这两篇文献就越具有相关性。通过寻找相关文献,对文献中的众多关键词取并集,进而获得更多的关键词,即所谓扩展关键词。对在不同文献中出现频率大的扩展关键词取交集,获得1级高质量关键词。然后通过一级高质量关键词不停地做循环搜索,进而获得2级,3级,…,n级索引扩展关键词集,以及更多的相似文献集。根据索引扩展关键词集以及文献集建立词汇-文献矩阵,并将其进行奇异值分解,分解成三个矩阵的乘积,其中中间的矩阵为对角阵,对角元素按照奇异值由大到小的顺序排列,其值反映了对原矩阵作用的大小。按照奇异值变化率选定某链接关系度阈值,并依据阈值对分解后的三个矩阵进行截取压缩处理。然后对压缩后的文献矩阵中的列向量进行k均值聚类,形成k类的文献列向量簇,以及k个簇类中心点。根据用户偏好,选取感兴趣的索引扩展关键词作为查询词集,并将其对k个聚类中心点做相似运算。选择相似度高的簇内中心点,并对其内文献向量进行同样相似运算,最终依据相似程度输出文献。