论文部分内容阅读
Web技术的飞速发展使得全球信息的传递和共享日益增多,如何利用信息检索技术在网络资源中高效地发现和使用有价值信息一直都是行业的焦点。随着网络和信息技术的发展,网络中的信息量呈几何级数增长,数据的种类也呈多样化和混合化,对信息表示和数据交换标准的要求也越来越高。XML作为一种自描述,可扩展的半结构化标记语言,它实现了内容、结构和表现三者的分离,越来越多的数据开始使用XML进行描述、存储和交换,已经逐渐取代HTML成为Web数据表现、存储和交换的标准。在这种情况下,面向XML的信息检索已经成为信息检索领域的研究热点之一。
对于网络中海量的XML数据,不同的用户在不同场合需要不同的检索技术。目前对于大规模XML文档的检索,通常以XML元素为检索单元,只返回符合条件的文档片断,这种方法可以提高检索精度,但判断符合检索条件片断的粒度却很困难。而对于海量的小规模XML文档,文档本身比较短小,如果只返回文档中个别片断,经常会出现提供信息量小、信息不完整以至于不能满足用户要求的情况。因此,借鉴Web搜索,对于以XML整篇文档为检索单元的检索方式研究是很有意义的。
本文在前人工作的基础上,针对XML的半结构化特点,从检索技术、数学模型、相关查询方式等方面研究了已有的技术和手段,就现有XML检索技术中存在的问题,给出一个面向海量小规模XML文档融合路径约束的XML检索方案。创新点包括:为使用户更加容易且准确的表达查询需求,提出带有XPath形式路径约束的关键字作为提交用户查询请求的方式;同时提出了一种新的融合路径约束的检索排序模型,该模型主要针对目前信息检索领域流行的向量空间模型进行研究与改进,充分利用XML文档的结构层次特性,将自然语言领域非常成熟的N-Gram思想应用于路径约束匹配计算用以获得文档同用户查询的相关度。该检索方案在准确表达用户查询需求的基础上又充分利用XML文档的路径约束来计算文档同用户查询的相关度,提升了用户对小规模XML文档的检索效果。