论文部分内容阅读
现代社会的信息量呈爆发性地增长,数据库技术成为有效地管理这些信息的主要方法。数据可以分为三种类型:结构化、半结构化和无结构化数据,它们在应用中分别主要体现为关系数据、XML数据和全文数据。对于这三种类型的数据,当前都有较成熟的索引模型和查询方法,并且这些模型和方法在大部分数据库产品中占据了主流地位。但是实际应用中的数据在很多情况下并不单纯是一种类型,而且三种数据的异构性导致它们的索引模型之间也存在一定程度的异构性,所以如何处理混合类型的数据还是一个亟需解决的问题。
本文针对这一问题,在对一种全文索引模型——互关联后继树作出改进的基础上,对关系数据与全文数据、XML数据与全文数据的联合索引模型以及其上的协同查询方法做了一定的研究。本文所做的工作和取得的创新成果体现在以下几个方面:
(1).对互关联后继树的改进研究。本文在文献[27][30]的基础上更进一步地研究了互关联后继树,提出了互关联后继树上的基本操作,为形式化描述后继树的相关算法打下了基础;本文提出了互关联区间后继树的模式——后继模式树,进一步简化了互关联后继树索引的存储结构,加快了查询速度;本文还提出了变长编码的后继树倒向创建算法,该算法能够更好地提高外存空间的利用效率。
(2).互关联后继树与B-树的联合索引模型研究。本文针对目前关系数据库中B-树上的全文语义查询效率低的问题,提出了互关联后继树与B-树的联合索引模型。联合索引中使用了简洁的映射关系,因此具有良好的空间效率。同时该模型还可以充分利用现有的成熟关系数据库中B-树的实现来构建实验系统。
(3).互关联后继树与B-树的协同查询研究。本文在互关联后继树与B-树的联合索引的基础上提出了基于SQL的两种协同查询方法:串行求解与并行求解,这两种协同查询的效率都大大优于原关系数据库的查询效率。这两种查询方法各有优点,可以在不同的场合中应用。
(4).黄页搜索引擎系统。在使用互关联后继树与B-树的联合索引模型以及串行协同查询的相关算法的基础上,我们又加入了基于互关联后继树的分词与切词方法,从而大大提高了中文语义查询的准确度。在这个基础上我们开发出了中国电信黄页搜索引擎系统,经过与现有系统的对比测试,我们开发的系统在查准率、查全率上都要好于对比系统,且在海量数据的情况下查询时间开销也能保持在秒级以下。
(5).XML的倒向互关联后继树索引研究。本文提出了XML树型结构的倒向后继树索引模型,该索引模型使得XML树型结构的语义自然地对应到了后继树的前驱与后继关系上来,使得用全文索引模型索引XML数据时不需要额外的语义转换,因此使得索引有较低的膨胀比。
(6).XML中的树型结构与文本的统一索引研究。本文在XML的倒向后继树索引的基础上,统一了XML中树型结构与文本的索引。经过统一编码,这两种数据就可以共用同一组后继模式树和互关联区间后继树。这种方法有效的解决了数据的异构性问题,并降低了联合索引的膨胀比。
(7).XML 中的树型结构与文本的协同查询研究。本文在XML 中的树型结构与文本的统一后继树索引的基础上,提出了基于后继模式树的自底向上协同查询算法。使用形式化的集合语言来描述了相关的查询算法,使得算法的描述更加清晰和准确。实验表明,互关联后继树统一索引模型和其上的协同查询算法比当前广泛使用的索引模型和查询算法有更高的时间和空间效率。