垂直搜索中XML索引及页面排序技术研究

来源 :哈尔滨工程大学 | 被引量 : 0次 | 上传用户:leolee
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
当今世界,伴随着互联网技术的急速发展,网络信息的膨胀速度呈指数增长。各行各业的人们由于互联网而紧密联系在一起,信息共享越来越受到人们的重视。在这样的条件下,搜索引擎技术迅速发展起来。然而人们对获取信息的时效性、针对性、准确性等方面有了新的要求,因此基于各专业的搜索引擎即垂直搜索引擎也应运而生。传统的搜索引擎大都是基于HTML语言的,HTML重显示而非内容的特点大大限制了搜索引擎的查准率,传统搜索引擎的查准率函待提高。随着W3C推出的一种可扩展标记语言XML以来,查准率问题得到了一定程度的解决。XML的标记含义丰富、意义明确,能明白的提示所标记的内容,搜索引擎可以依靠标记和内容之间的依存关系,准确定位、找到目标,从而大大减小搜索范围,提高检索精度。在这种发展背景下,本文对基于XML的垂直搜索引擎进行了研究。首先,本文对比介绍了XML语言与HTML语言以及搜索引擎的工作原理和相关技术,说明XML语言和搜索引擎结合可以提高查准率的原因。接着,本文设计了基于XML的垂直搜索引擎的模型,介绍了模型的设计思想及总体框架。模型包括页面抓取模块、页面整合模块、XML解析模块、索引模块和用户查询模块这几部分。本文详细描述了各个模块的结构和实现思想。然后,本文重点介绍垂直搜索引擎中的基于XML文档索引建立模块。针对XML文档的特点,本文设计的索引模块包括节点结构构造器和索引器两部分,其中节点结构构造器用来给DOM树进行结构构造,索引器用来为XML文档建立索引。文章对XML文档的结构和内容都建立了索引,并针对用户查询界面如何利用索引表查询进行了详细说明。最后,本文针对目前使用较多PageRank算法加以改进,提出了CP PageRank算法。PageRank算法只考虑了页面的链接,容易产生“主题漂移”等问题,在CP pageRank算法中在原有基础上考虑了关键词的词频,能够很好的解决“主题漂移”等问题。
其他文献
嵌入式系统SoC的器件尺寸越来越小、集成度越来越高、功能越来越复杂,传统的设计方法已经不能满足当前SoC设计的需求,因此出现了软硬件协同设计。软硬件划分是软硬件协同设计
随着数据仓库应用范围的不断扩大,集中式数据仓库环境已不能满足用户的需求,分布式数据仓库技术应运而生。分布式数据仓库中的数据大多来源于多个分散、异构及自治的底层业务
模式(字符串)匹配是计算机领域中的一个重要的研究方向,该问题是计算机科学中的基础问题之一,在学术界和工业界有着广泛的研究与应用。模式匹配算法被广泛应用到涉及文本处理
基于数字照片的计算机艺术处理在计算机艺术和数字娱乐等领域有广阔的应用前景,如何利用数字图像处理技术,结合艺术家不同艺术风格生成具有艺术效果的数码作品,不仅可以提供新的
数字水印至今已有十余年的历史,按水印所附载的媒体划分,其主要可分为三大类:图像水印、音频水印、视频水印。图像水印算法是音频与视频水印的基础,它可以方便的应用到音频与
在网络应用服务发展的今天,信息获取已成为网民使用Internet的主要目的之一。由于传统搜索引擎存在不足及自身的局限性,限制了人们对资源的获取。为提高用户查询信息的覆盖面
无线传感器网络是一种随机布撒、分布式、自组织的面向具体应用的新兴网络,具有重大的研究意义和广阔的应用前景。但是,由于传感器节点的存储、计算和通信能力有限,对网络结
TTCN-3(Testing and Test Control Notation)是新一代协议和软件测试描述语言,它在定义并规范测试套描述语言的同时给出测试语言的执行语义,并且规范测试系统各组件之间的接
全息显示能够再现物波振幅与相位的全部信息,提供人类视觉系统所需的所有的心理与生理暗示,特别是深度暗示、视差等,因而能够再现出唯妙唯肖的三维场景,这是其他任何一种显示
随着因特网的迅猛发展和P2P(Peer-to-Peer)网络技术的不断成熟,基于P2P技术的应用不断涌现,其中基于P2P的资源共享服务己成为P2P网络最为广泛的应用之一。由于P2P网络没有中