论文部分内容阅读
当今世界,伴随着互联网技术的急速发展,网络信息的膨胀速度呈指数增长。各行各业的人们由于互联网而紧密联系在一起,信息共享越来越受到人们的重视。在这样的条件下,搜索引擎技术迅速发展起来。然而人们对获取信息的时效性、针对性、准确性等方面有了新的要求,因此基于各专业的搜索引擎即垂直搜索引擎也应运而生。传统的搜索引擎大都是基于HTML语言的,HTML重显示而非内容的特点大大限制了搜索引擎的查准率,传统搜索引擎的查准率函待提高。随着W3C推出的一种可扩展标记语言XML以来,查准率问题得到了一定程度的解决。XML的标记含义丰富、意义明确,能明白的提示所标记的内容,搜索引擎可以依靠标记和内容之间的依存关系,准确定位、找到目标,从而大大减小搜索范围,提高检索精度。在这种发展背景下,本文对基于XML的垂直搜索引擎进行了研究。首先,本文对比介绍了XML语言与HTML语言以及搜索引擎的工作原理和相关技术,说明XML语言和搜索引擎结合可以提高查准率的原因。接着,本文设计了基于XML的垂直搜索引擎的模型,介绍了模型的设计思想及总体框架。模型包括页面抓取模块、页面整合模块、XML解析模块、索引模块和用户查询模块这几部分。本文详细描述了各个模块的结构和实现思想。然后,本文重点介绍垂直搜索引擎中的基于XML文档索引建立模块。针对XML文档的特点,本文设计的索引模块包括节点结构构造器和索引器两部分,其中节点结构构造器用来给DOM树进行结构构造,索引器用来为XML文档建立索引。文章对XML文档的结构和内容都建立了索引,并针对用户查询界面如何利用索引表查询进行了详细说明。最后,本文针对目前使用较多PageRank算法加以改进,提出了CP PageRank算法。PageRank算法只考虑了页面的链接,容易产生“主题漂移”等问题,在CP pageRank算法中在原有基础上考虑了关键词的词频,能够很好的解决“主题漂移”等问题。