异构数据的联合索引与协同查询研究

来源 :复旦大学 | 被引量 : 0次 | 上传用户:chaohushixi
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
现代社会的信息量呈爆发性地增长,数据库技术成为有效地管理这些信息的主要方法。数据可以分为三种类型:结构化、半结构化和无结构化数据,它们在应用中分别主要体现为关系数据、XML数据和全文数据。对于这三种类型的数据,当前都有较成熟的索引模型和查询方法,并且这些模型和方法在大部分数据库产品中占据了主流地位。但是实际应用中的数据在很多情况下并不单纯是一种类型,而且三种数据的异构性导致它们的索引模型之间也存在一定程度的异构性,所以如何处理混合类型的数据还是一个亟需解决的问题。 本文针对这一问题,在对一种全文索引模型——互关联后继树作出改进的基础上,对关系数据与全文数据、XML数据与全文数据的联合索引模型以及其上的协同查询方法做了一定的研究。本文所做的工作和取得的创新成果体现在以下几个方面: (1).对互关联后继树的改进研究。本文在文献[27][30]的基础上更进一步地研究了互关联后继树,提出了互关联后继树上的基本操作,为形式化描述后继树的相关算法打下了基础;本文提出了互关联区间后继树的模式——后继模式树,进一步简化了互关联后继树索引的存储结构,加快了查询速度;本文还提出了变长编码的后继树倒向创建算法,该算法能够更好地提高外存空间的利用效率。 (2).互关联后继树与B-树的联合索引模型研究。本文针对目前关系数据库中B-树上的全文语义查询效率低的问题,提出了互关联后继树与B-树的联合索引模型。联合索引中使用了简洁的映射关系,因此具有良好的空间效率。同时该模型还可以充分利用现有的成熟关系数据库中B-树的实现来构建实验系统。 (3).互关联后继树与B-树的协同查询研究。本文在互关联后继树与B-树的联合索引的基础上提出了基于SQL的两种协同查询方法:串行求解与并行求解,这两种协同查询的效率都大大优于原关系数据库的查询效率。这两种查询方法各有优点,可以在不同的场合中应用。 (4).黄页搜索引擎系统。在使用互关联后继树与B-树的联合索引模型以及串行协同查询的相关算法的基础上,我们又加入了基于互关联后继树的分词与切词方法,从而大大提高了中文语义查询的准确度。在这个基础上我们开发出了中国电信黄页搜索引擎系统,经过与现有系统的对比测试,我们开发的系统在查准率、查全率上都要好于对比系统,且在海量数据的情况下查询时间开销也能保持在秒级以下。 (5).XML的倒向互关联后继树索引研究。本文提出了XML树型结构的倒向后继树索引模型,该索引模型使得XML树型结构的语义自然地对应到了后继树的前驱与后继关系上来,使得用全文索引模型索引XML数据时不需要额外的语义转换,因此使得索引有较低的膨胀比。 (6).XML中的树型结构与文本的统一索引研究。本文在XML的倒向后继树索引的基础上,统一了XML中树型结构与文本的索引。经过统一编码,这两种数据就可以共用同一组后继模式树和互关联区间后继树。这种方法有效的解决了数据的异构性问题,并降低了联合索引的膨胀比。 (7).XML 中的树型结构与文本的协同查询研究。本文在XML 中的树型结构与文本的统一后继树索引的基础上,提出了基于后继模式树的自底向上协同查询算法。使用形式化的集合语言来描述了相关的查询算法,使得算法的描述更加清晰和准确。实验表明,互关联后继树统一索引模型和其上的协同查询算法比当前广泛使用的索引模型和查询算法有更高的时间和空间效率。
其他文献
随着电信网的不断发展,各种通信设备应运而生。在电信领域中,常采用2Mbps速率的E1接口作为通信设备之间数据传输的物理层接口。本文首先对E1接口的概念进行了详细介绍,分析了它
作为一种新型的分布式计算模型,Web服务极大地推动了B2B应用的发展。因为Web服务是基于通用的协议和技术实现的,所以它具有强大的互操作性:WSDL用来描述发布的接口;UDDI用来
学位
无线射频识别技术(Radio Frequency Identification, RFID)是物联网技术中的一项重要技术。在物联网快速发展的带动下,RFID技术也取得较大发展。RFID技术是用射频信号进行信息
在当前的电子信息技术和网络技术高速发展的后PC时代,嵌入式系统已经广泛地渗透到科学研究、工程设计、军事技术、商业文化艺术、娱乐业以及人们日常生活中的方方面面。与此同
随着Internet高速发展,人们对安全、方便的身份识别技术提出了更高的要求。传统的身份识别技术防伪性能较差,已经不能适应现代社会对身份识别的要求,当前人们提出了用人体的
网格资源监控是网格若干重要问题中的一个。在网格计算环境中存在各种动态的资源,它们在地理位置上是分布的,在运行平台上是异构的,又可以动态地加入或离开不同的虚拟组织。
近年来随着Internet的迅速发展,互联网用户以惊人的速度增长。一方面,伴随着计算机多媒体技术的不断发展,传统的互联网业务已经逐渐不能满足人们的需求,人们希望互联网能够提供更
星载合成孔径雷达(SAR)具有全天候、全天时、覆盖面积大、快速获取及接近实时等特点,利用SAR遥感技术可及时、准确、全面地监测海洋溢油污染,是溢油监测方面最为有效的手段,目前
本文对基于UML的软件设计模式建模进行了研究。文章针对目前设计模式建模方法的不足,以一个“所见即所得”的文本编辑器的设计建模过程为例,对目前的设计模式建模方法进行分析