论文部分内容阅读
随着信息科技的飞速发展,数据库技术被广泛应用在各个领域中。现代数据库往往由成百上千个元素所构成,同时由于相关说明文档的缺失现象严重,对于用户来说,要对一个不熟悉的数据库进行查询检索是十分困难的,用户需要花费大量时间和精力来理解数据库的构成。模式摘要生成技术是解决上述问题的有效方法。数据库模式摘要对数据库模式进行总结,将数据库元素划分到不同的主题类中,为用户提供一个简明的数据库概要,提高了数据库的可用性。然而现存的模式摘要方法都只专注于非重叠模式摘要的生成,也就是只允许数据库中的一个元素属于模式摘要中的一个主题类,却忽视主题之间会出现重叠,一个数据库元素可能同时属于多个主题类。这样的情况在现代的大规模数据库中是时常发生的。此时非重叠模式摘要便不能够满足用户的需求了,因此对于重叠模式摘要的研究是必要而有意义的。另外,由于现代数据库规模巨大,仅将数据库模式进行一次划分会导致所生成的类别仍旧过多,不易理解,所以本文设想将数据库模式进行多次划分,形成多层次的摘要结构。基于上述想法,本文设计了一种高效的自动生成多层次重叠模式摘要的方案。本文首先阐述了论文的研究背景以及研究意义,然后对于非重叠模式摘要的不足进行深入的分析,提出了针对于关系型数据库的重叠模式摘要的概念,并且对该问题进行了形式化的定义。在关系型数据库重叠模式摘要生成方案的设计上本文主要进行了以下四个方面的工作:第一,设计一种关系型数据库模式到多标签图的映射方案,将关系表的类别信息以标签对的形式进行存储;第二,借鉴相对熵的概念设计了一种新的关系表相似度度量方案;第三,基于多标签传播算法对数据库模式进行首次划分,生成多个重叠团;第四,为了使摘要的规模更加合理,采用层次聚类方法将重叠团进一步划分,从而得到一个多层次的重叠模式摘要;最后,通过合理的对比实验表明本文所提出的多层次重叠模式摘要生成方案不仅在准确度上较以往的方案有相应的提升,同时也可以有效的发现模式摘要的重叠部分。