论文部分内容阅读
近年来,随着Web信息多元化的增长,传统的信息采集系统(Scalable Web Crawler)已无法保证对信息的及时更新,并且由于其采集信息的主题范围过于广泛,较少考虑采集的信息是否与查询主题相关,满足不了人们对个性化信息检索服务日益增长的需求。主题信息采集系统(Focused Web Crawler)采集信息的内容只限于特定主题或专门领域,在搜索过程中无须对整个Web进行遍历,只需选择与主题页面相关的页面进行访问,基本回避了传统信息采集系统信息指数膨胀的危机,成为近年的研究热点。 本文以辽河油田科技部信息管理系统为研究背景。分析了网络蜘蛛的工作原理,按照评价链接价值所采用方法的不同将现有的搜索策略进行了分类,分析、比较了它们的特点和优缺点,并给出了一种基于语义链接分析的信息采集策略。结合该策略,设计了一个面向主题搜索的信息采集模型,并对模型的组织结构及各模块的功能进行了详细阐述。 词义消歧是主题语义相关度计算的基础,本文结合两种基于“知网”的词义消歧策略:类别歧义消歧策略、基于语义相关度的消歧策略;给出一种基于“知网”的消歧算法,该算法利用词语义原中所含的四种关系,计算词语之间的相关度和词语与其上下文之间的相关度,进而达到词义消歧的目的。 在URL的主题相关性判别过程中,以“知网”为基础引入了词汇的语义计算,从语义和概念层对文本进行主题相关性分析,将基于内容评价的搜索策略和基于Web链接结构的搜索策略相结合,给出了一种改进算法SPageRank(Semantic PageRank),通过对扩展元数据进行主题相关性判定来选择、预测与主题相关的URL。而对于网页的主题相关性判定,则使用目前较为常用的向量空间模型进行计算。实验结果表明,基于SPageRank的信息采集系统具有较高的采集效率及精度。