XML搜索引擎中索引技术的研究

来源 :燕山大学 | 被引量 : 0次 | 上传用户:crazy915
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
现有的搜索引擎多数是针对静态HTML(Hyper Text Markup Language)而设计的,HTML只是一种简单的显示语言,无法对检索信息做精确定位,从而大大限制了搜索引擎的查准率。目前,互联网上大量的信息开始采用XML(eXtensible Markup Language)语言来描述、存储和交换。XML标记描述了内容的含义,搜索引擎可以依靠标记和内容之间的依存关系,准确找到信息,从而大大减小搜索范围,提高检索精度。本文对面向XML的搜索引擎进行了研究。首先,本文提出了一个XML搜索引擎模型,并介绍了模型的设计思想。该模型由机器人模块、转换模块、解析模块、DTD(Document Type Definition)管理模块、索引模块、查询模块等组成。另外,详细描述了各个模块的结构和实现细节。其次,对XML索引技术进行了研究。本文改进了一种区域编码方法,支持节点编码的更新,为XML索引模型提供了编码维护方案。在此基础上,提出了一种基于DTD的路径索引方法,并将之无缝结合了基于文本的倒排索引,以支持XML文档的内容检索和结构检索。其主要特点是结合了编码方法、倒排索引和路径索引的思想,对XML文档及其遵循的DTD同时建立索引。另外,详细论述了如何设计索引结构并讨论了索引的存储和优化问题。最后,为了测试论文所提出的索引方法的性能,开发了一个XML索引原型系统。
其他文献
在当今社会,一张简单的纸质地图已经完全不能满足人们的问路需求;而纷繁复杂的黄页,既不方便,又不全面,还不够更新。电子智能地图应运而生,将地理信息系统的数据以直观的表现形式呈
随着社会主义市场经济的飞速发展,我国电力企业从垄断向市场化改革是必然趋势,建立“厂网分开,竞价上网”的发电侧电力市场,是中国电力市场化改革的第一步。发电商将作为竞价上网
近几年来,Web信息资源呈爆炸性增长,Web网上充斥着大量重复、篡改、虚假的信息。用户在浏览网页时,往往会迷失在信息的海洋中,无法得知其所获取的信息是否精确、完整。数据质量评
塔式起重机是城市化建设中不可或缺的工具,其中安全承载和防碰撞是塔机安全关注的主要问题。安全承载主要依靠塔机力矩限制器实现,而力矩限制器则存在预置锁死点离散分布,散点之间承载能力模糊的问题。防碰撞主要依靠根据现场情况对塔机吊臂和挂钩进行活动区域限制来实现,大大影响了工作效率。因此,本文结合实际项目对以上两个问题进行研究并提出解决方案,做了如下几步工作:研究了国内外塔机力矩限制器的研究背景及现状,提出
法院工作效率的提高来自管理和决策水平的提高,而高水平的管理和战略决策都离不开快速、准确、丰富的信息。大信息量的快速信息传递、交流、处理和共享是科学决策的前提和必不
随着信息技术和网络技术的迅速发展,无线传感器网络得到了蓬勃发展。由于地球水域资源丰富以及研究领域的不断扩展,水下无线传感器网络受到更为普遍的关注。水下无线传感器网络
三维人脸建模研究是计算机图形学和计算机视觉领域中的一项热门课题,它可广泛应用于计算机动画、辅助教学、可视电话、虚拟现实等诸多领域。 论文对基于图像的三维人脸建模
现代社会已经对互联网空前依赖,在这虚拟的电子社会中的身份识别成为重要的安全问题。区别于传统数字、符号组成的密码,目前已有的基于生物特征(如指纹、虹膜、人脸、声音、
随着现代企业的发展,计算机集成制造系统中的柔性制造系统和企业自动化对销售管理提出了更高的要求。在实际的企业资源计划中,作为信息集成基础的销售管理系统的信息获取越来越
随着网络通信和多媒体技术的发展,人们已不满足简单的语音和文字通信,希望集语音、文字和图像于一体的多媒体通信。多媒体通信是继电报、传真、电话之后新的通信技术。视频会议