面向XML的搜索引擎研究

来源 :哈尔滨工程大学 | 被引量 : 0次 | 上传用户:junemeng
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
当今,互联网已成为人类有史以来资源最多、品种最全、规模最大的信息库。作为网上最主要的信息检索工具,搜索引擎发挥着非常重要的作用。传统的搜索引擎大都是基于HTML的搜索引擎,HTML重显示而非内容的特点大大限制了搜索引擎的查准率,传统搜索引擎的查准率亟待提高。现在,一种可扩展标记语言XML开始慢慢发展起来,越来越多的文档开始用XML语言来描述、存储和交换。XML的标记含义丰富、意义明确,能明白的提示所标记的内容,搜索引擎可以依靠标记和内容之间的依存关系,准确定位、找到目标,从而大大减小搜索范围,提高检索精度。在这种发展背景下,本文对面向XML文档的搜索引擎进行了研究。 首先,本文设计了面向XML文档的搜索引擎的模型,介绍了模型的设计思想及大体框架。模型包括机器人模块、转换模块、解析模块、索引模块和查询模块这几部分。本文详细描述了各个模块的结构和实现思想,并给出了部分模块的具体实现。 接着,本文介绍系统的索引模块。针对XML文档的特点,本文设计的索引模块包括节点结构构造器和索引器,其中索引器用来为XML文档建立索引。文章对XML文档的结构和内容都建立了索引,并对索引的实现方法进行了详细论述。 最后,本文介绍了搜索引擎的查询模块。它包括查询执行器、解释器和用户界面。配合已建立的索引,根据用户有无输入关键词的区别分别设计了两种界面,在界面上提供一种导航式的策略,引导用户逐级的找到自己所要查找的类别的结构定义,使得用户可用此类别结构中的标签来限定上下文关系,从而准确找到自己所需要的信息,充分体现了利用XML语言查询的优势。
其他文献
多机器人协调与协作是机器人研究领域的一个重要课题,将智能体理论与多机器人研究相结合又是当前研究的一个热点。本文以二维环境中军用水下多机器人的巡逻和围捕任务为应用
随着互连网规模和复杂程度的迅速增长,网络安全的重要性不容忽视。入侵检测系统作为一种能够自动检测计算机系统或网络上入侵行为的系统,成为网络安全的重要组成部分。它是继
网络教育正在中国迅速的成长和发展,有着巨大的市场前景。协同学习系统用于网络教育,包含了普通远程教学的功能并且还具备远程教学不具有的功能,对于提高学习者的兴趣和学习成效
Internet与无线通信网的结合日益紧密,成为互联网发展新的增长点。两者相结合的产物是无线应用协议(WAP),移动互联网必须遵守该协议,相应地,必须建立WAP站点以提供信息服务;配置WA
石油企业所要进行投资的项目,往往具有庞大、复杂、周期长、相关单位多等特点,其经济性受多方面因素的制约,故企业在做出投资决策时存在着风险。这样,项目投资存在着相当多的不确
在智能交通系统中,交通流仿真软件是人们评估交通管控策略、验证交通流理论中新的算法、和培训交通管理人员的有效工具。同时,多智能体系统,作为计算机科学与分布式人工智能领域
信息技术的日新月异使得各个领域的数据量激增,大型、分布式数据库成为数据存储的主要方式。在此背景下诞生的知识发现和数据挖掘给人们提供了一种新的认识数据、理解数据的
工业色谱仪是一种大型精密在线分析仪器,它在石油、化工、医药、环保、食品等许多领域都有着广泛的用途。工业色谱仪的研制开发涉及到分析化学、机械、电子、自动化、计算机等
过去几年中,网格社区致力于发展网格技术和web服务的结合。OGSA定义网格服务为web服务的扩展,从而开发者可以集成分布、异构环境中的服务和资源。web服务则定义了描述可访问
目前,随着计算机网络技术的高速发展,在全国高校中许多教务系统相继投入使用。然而,由于这些系统及其选课子系统基本都是基于传统的B/S/S结构,在网上选课过程中,由于选课人数