论文部分内容阅读
可扩展标记语言XML是网络数据存储和交换的一种重要的标准。在RSS等新型网络应用中,使用XML作为数据表示语言,用户通过关键字来表达查询需求,应用系统获取符合用户查询要求的XML数据片段,并作为结果返回给用户。关键字查询的优点是可以方便表达用户的查询意图,因此被集成在许多应用程序中。 XML关键字查询技术最重要的两个方面是查询语义的有效性和查询处理算法的高效性。查询语义和查询处理算法关注的核心是如何快速让用户得到符合其查询意图的结果。特别是在需要为大量用户提供反馈的网络应用中,查询语义的有效性和查询算法的高效性就成为XML关键字查询可行性的两个关键因素。 针对现有研究中公共祖先重复问题,关键字二义性问题和结果排序问题。本文进行深入研究,主要的工作如下: 1.基于Dewey编码的构想,本文采用了一种新颖的双指标索引法-路径内容索引,对PCID算法进行了改进,研究了一种新算法--PCRK算法。路径内容索引算法采用了局部顺序编码来保存路径信息,占用的空间很少,同时它因不需要额外的存储,这样就减少了存储DeweyID路径信息的索引空间,解决了公共祖先重复问题和PCID方法中结果排序的问题,实验结果证明了该方法的有效性; 2.实现查询结果的有效性与相关性是XML关键字搜索中最关键的一部分,本文在现有研究的基础上,根据双重索引在现有的算法基础上进行改进,研究了一种新颖的TDF算法,该算法在XML数据库上建立两个索引来进行关键字搜索,解决了关键字的二义性和查询结果排序问题,并通过实验对该方法的有效性进行了验证。