论文部分内容阅读
随着互联网技术的迅速发展,网上文本数量成指数级增长,如何有效检索这些海量信息成为当前重要的研究课题。文本信息检索(Information Retrieval)是指从大量文档集合中找到与给定的查询请求相关的、恰当数目的文档子集。文本信息检索是处理海量文本的重要手段。本文主要研究基于Web的文本信息检索算法。 本文首先介绍了信息检索的发展概况和相关技术,分析了基于内容检索算法、基于超链分析检索算法以及融合检索算法的特点。针对内容检索方法查全率不高、超链分析检索方法容易产生主题漂移的缺点,本文将基于内容和超链分析的检索方法相结合,提出一种基于超链接和标记文本的信息检索算法。该算法利用网页之间的链接关系和超链接中的标记文本内容计算网页的综合权值,在此基础上将检索结果进行排序输出。实验结果表明,该算法具有较高的查全率和查准率。 为了提高检索的查准率和降低检索时间,本文将文本分类和信息抽取技术辅助检索,提出了一种基于分类和关键词组抽取相结合的信息检索算法。该算法加入了分类和抽取技术,避免了向量空间模型算法中时间复杂度过大,查准率不高的缺点。实验结果表明,所提算法具有更快的查询速度和更高的查准率。同时,针对传统的信息检索性能指标无法有效地衡量检索结果的排序状况,本文还引入了排序误差率概念用于评价检索结果的排序,并将其应用于向量空间模型算法、基于分类的交互式检索算法以及分类和关键词组抽取相结合的检索算法中,实验结果表明,本文所提算法具有较小的排序误差率。 最后,本文在已有信息检索算法的基础上,结合所提出的改进算法及技术,实现了一个专业领域的全文检索原型系统。