论文部分内容阅读
由于有着可扩展性和自描述性等特点,XML格式得到了越来越多的采用,其结果是产生了大量以XML格式表示的文档。随着XML文档的大量涌现,用户迫切地需要对XML文档进行有效地查询。但是由于XML文档结构比较松散,往往存在大量的文本(尤其是在以文本为中心的XML文档中),用户难以了解XML文档的结构;而且XML查询语言比较复杂,用户亦难以掌握XML查询语言,这使得以XML数据库技术为代表的XML精确查询技术不能满足用户的需求,在此背景下,信息检索(IR)方式的XML文档搜索由于其用户友好性而受到了越来越多人的注意。目前,传统的信息检索技术比较成熟,但它们主要是针对HTML文档和文本文档,没有考虑XML文档的结构信息,无法体现XML信息检索的特点。随着XML文档的急剧增长,传统的搜索引擎已很难满足用户需求,XML信息检索将会成为下一代搜索引擎发展的重要方向之一,也将在众多行业如网络信息检索、数字图书馆等领域得到广泛的使用。本文研究了XML文档搜索中的查询处理技术,研究范围从用户提交XML查询开始,到产生最终的检索结果呈现给用户为止,研究的问题是对于用户提交的XML查询,如何有效地产生以合适的形式表示的、有意义的检索结果。在处理XML文档上的关键词或者带关键词的查询时,有两个问题非常重要:(1)XML文档中存在大量的标签,使得XML文档形成一种树状结构,于是XML文档搜索可以在一个更细的粒度上进行,即以子树或者结点为单位来匹配和返回。有效的XML文档搜索需要对XML文档中不同的结点(标签)有一个清晰的理解,如哪些部分更重要,应该返回哪些部分等。(2)XML数据模型比较复杂,XML文档中各种信息掺杂在一起,而XML检索表达式的表达能力相当有限,于是当用过于简单的表达式来查询复杂的XML文档时,往往存在歧义和语义上的模糊。有效的XML文档搜索需要对XML查询有一个深入的理解,理解查询的意图,这样才能忠实地反映出XML文档与查询之间的相关性。基于这样的出发点,本论文将语义作为核心,基于XML文档的语义来选择答案结点,通过查询语义来反映XML查询的意图,通过查询和结果语义上的相关性来对查询结果计分,围绕查询语义来返回组织良好的检索结果。我们认为,这种特点抓住了XML信息检索的关键,能够产生较好的检索效果。具体来说,研究了以下内容:(1)研究了XML文档检索中答案结点的语义推导问题。在对XML文档进行检索时,首先遇到的一个问题是,对于用户给出的查询,返回什么样的结点/检索结果是符合用户查询意图的。针对这一问题,我们分析了理想答案结点应满足的准则,以及XML文档中的结构信息、内容信息和用户查询信息与理想答案结点之间的关系。提出了根据XML结点类型和用户查询信息推导答案结点语义的方法。(2)针对当前XML文档搜索系统存在的一些缺陷,研究了XML关键词检索结果的聚类问题,提出了一个新的聚类方法,该方法的核心是答案结点与关键词查询的匹配模式。为了实现该聚类方法,我们提出了两种实现方法:Lazy方法和Eager方法,Eager方法能够保证产生与Lazy方法相同的聚类结果,但效率更高。还研究了聚类产生的簇的排序以及簇内部的检索结果的排序。(3)研究了有效的结构与内容检索(Content and Structure, CAS)查询处理问题,分析了已有的方法面临的问题,即不够灵活,有针对性地提出了一种新的CAS查询处理方法。这种方法以内容为主,结构为辅,能够较好地克服当前技术的一些问题,并特别适用于异构环境下的XML信息检索。(4)设计和开发了一个XML文档检索的原型系统XSense,它支持关键词检索和结构与内容检索。特别探索了支持XML文档搜索的索引结构,提出了一种新的XML编码结梅LCT编码,围绕LCT编码构建了XML结构和内容索引,支持各种结构查询和内容查询。本文的创新性工作体现在:(1)提出了一种新的XML检索的答案结点语义。一方面利用结点的语义,要求答案结点必须是有意义的;另一方面分析了XML查询与查询匹配之间的关系,要求在答案结点中关键词匹配之间的联系必须是有意义的。实验测试表明,与现有的答案结点语义相比,该方法能够更好地产生有意义的答案结点。(2)提出了一种新的面向XML文档搜索的结果聚类方法,以及高效的实现算法。这种聚类方法的特点是:它可以实现对XML查询的消歧,将不同语义的检索结果归类到不同的簇中;可以大大节省用户在浏览检索结果时的无用劳动;有助于用户更全面地理解检索结果集,也有助于扩展用户兴趣。大量的实验结果证明,这种聚类方法是有效的,能够产生有意义的聚类结果,而且聚类结果对于用户而言也是有帮助的。从时间效率上看,该聚类方法可以有效地实现。(3)提出了一种新的XML结构与内容检索的思路,该思路不同于其他工作的特点是:它采取了一种分解——检索——合并的思路,并且在检索中,采取以内容为主,结构为辅的思路,使得该方法具有很好的灵活性和自适应性。实验证明,该方法无论是对于同构文档还是异构文档都能取得很好的检索结果。通过本论文的研究,取得了一些重要的研究成果,这些成果丰富并推动了XML信息检索的研究,并为后续研究打下了坚实的基础。