面向小规划XML文档检索研究与设计

来源 :南开大学 | 被引量 : 0次 | 上传用户:guizhuyijie
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
Web技术的飞速发展使得全球信息的传递和共享日益增多,如何利用信息检索技术在网络资源中高效地发现和使用有价值信息一直都是行业的焦点。随着网络和信息技术的发展,网络中的信息量呈几何级数增长,数据的种类也呈多样化和混合化,对信息表示和数据交换标准的要求也越来越高。XML作为一种自描述,可扩展的半结构化标记语言,它实现了内容、结构和表现三者的分离,越来越多的数据开始使用XML进行描述、存储和交换,已经逐渐取代HTML成为Web数据表现、存储和交换的标准。在这种情况下,面向XML的信息检索已经成为信息检索领域的研究热点之一。   对于网络中海量的XML数据,不同的用户在不同场合需要不同的检索技术。目前对于大规模XML文档的检索,通常以XML元素为检索单元,只返回符合条件的文档片断,这种方法可以提高检索精度,但判断符合检索条件片断的粒度却很困难。而对于海量的小规模XML文档,文档本身比较短小,如果只返回文档中个别片断,经常会出现提供信息量小、信息不完整以至于不能满足用户要求的情况。因此,借鉴Web搜索,对于以XML整篇文档为检索单元的检索方式研究是很有意义的。   本文在前人工作的基础上,针对XML的半结构化特点,从检索技术、数学模型、相关查询方式等方面研究了已有的技术和手段,就现有XML检索技术中存在的问题,给出一个面向海量小规模XML文档融合路径约束的XML检索方案。创新点包括:为使用户更加容易且准确的表达查询需求,提出带有XPath形式路径约束的关键字作为提交用户查询请求的方式;同时提出了一种新的融合路径约束的检索排序模型,该模型主要针对目前信息检索领域流行的向量空间模型进行研究与改进,充分利用XML文档的结构层次特性,将自然语言领域非常成熟的N-Gram思想应用于路径约束匹配计算用以获得文档同用户查询的相关度。该检索方案在准确表达用户查询需求的基础上又充分利用XML文档的路径约束来计算文档同用户查询的相关度,提升了用户对小规模XML文档的检索效果。
其他文献
虚拟计算环境是建立在广域互联网基础设施之上,为完成大型的应用需求进行网络资源的聚合,为用户提供可信的、透明的、服务一体化的环境。在虚拟计算环境下搭建地理信息系统,
医学图像融合技术是当今国内外研究的一个热点,医学图像融合能够综合利用医学图像中的互补信息,得到包含信息更全面、显示效果更好的图像,为临床诊断和治疗提供更精确的数据
信息化是当今世界经济和社会发展的大趋势。通过搭建专用数据中心,企业以网络服务的方式将生产、管理过程数字化、信息化,极大的提高了企业自身的生产和工作效率。随着互联网技
随着移动互联网的高速发展和林业“十三五”改革的要求,针对现阶段的林业发展状况,林业现代化水平低严重制约着我国林业的发展。现有的林业巡护系统结构单一,致使林业部门的
随着计算机技术和互联网的迅速发展,各种信息呈爆炸式增长,人们对信息精确定位的需求促进了自然语言处理技术的研究。同时,随着人们对跨文本信息融合的分析,多文档自动文摘成
当今世界,科学技术突飞猛进的发展,而以高科技为基础的武器研发技术更是日新月异,现代战争可以说是新技术的“展览馆”,应用高科技的新式武器无论是破坏力还是杀伤力都达到了前所
未知环境下移动机器人的同时定位与建图(Simultaneous Localization and Mapping-SLAM)是自主探索领域的核心问题,现已受到了广泛关注,并涌现出大量的解决方法。与单机器人SLAM
当前面向主干网的网络检测系统鲜有将僵尸网络(botnet)传播检测数据纳入,并且缺少对检测到的威胁事件作进一步分析,以致无法评估出被保护对象所受的危害程度。本文尝试以出入
迁移学习是针对跨领域学习问题提出的一类机器学习方法。迁移学习在彼此不同但又相关联的两个领域之间挖掘领域共享的潜在特征和结构,使得样本数据所包含的知识可以在领域之
动力配煤技术是一项投资少、见效快,既能节约煤炭资源,又能减轻环境污染的适合中国国情的洁净煤技术。为构建“资源节约型社会”和“环境友好型社会”,动力配煤优质化技术已