基于标签传播的数据库模式摘要生成技术研究

来源 :南开大学 | 被引量 : 0次 | 上传用户:maxchou
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着数据库技术在各个领域的的飞速发展,数据规模日益增长,数据库模式的复杂度也随之不断地增加。即使有大量的模式文档可供使用,用户也必须花费大量精力去理解数据库模式才能从数据库中获取出所需信息。因此如何快速地理解数据库模式信息成为了一个研究热点,模式摘要生成技术应运而生。模式摘要是整个模式的简洁概述,它包含原模式中的重要元素,实现了广泛的信息覆盖。如何生成一个通用的、高效的数据库模式摘要,是本文的主要研究目标。本文分析并总结了数据库模式摘要生成技术在国内外的研究现状,在此基础上选择目前机器学习领域高度关注的一种主流半监督学习方法——标签传播算法作为主要基础,对自动生成数据库模式摘要技术进行深入研究,主要工作包括:第一,提出一种数据库模式到标签图的映射方法,通过关系表中的主外键信息、属性信息以及元组信息计算出每张关系表的信息量,在标签图上采用随机游走模型,衡量每张关系表的重要性。第二,提出一种关系表相似性度量方法,由于现有关系表相似度计算方法过多的依赖于数据集,不具有普遍性,在充分考虑数据特征的基础上,本文选取了名称、属性值以及关系表之间的映射关系作为相似度模型的主要特征,利用多元线性回归模型来计算关系表的相似性。第三,深入分析基于图的半监督的标签传播算法,并以此为基础提出了一种基于标签传播的模式摘要自动生成模型。与传统模型相比,该模型结合了监督学习与无监督学习算法的优势,能同时采用标注数据和未标注数据进行聚类,取得了更高的聚类精度。本文在基准数据库TPC-E以及真实数据库CSEMIS上进行了大量的对比实验,对主要工作进行了验证。实验结果表明本文提出的模式摘要生成方法能够为用户提供更准确的模式摘要,较其他解决方案而言,在准确度及性能方面有显著的提升。
其他文献
在海洋鱼类胚胎冷冻保存试验中,试验材料的获取带有很强的季节性,试验数据获取难度较大,很难取得大样本数据。采用目前常用的8种抗冻剂在6种不同浓度和3种平衡时间下的全组合方
数据库的发展经历了三代,第一代是以技术为中心的前关系型数据库,史于二十世纪七十年代,主要是网状数据库和层次数据库。二十世纪八十年代,第二代以用户为中心的关系型数据库得到
当今互联网的开放性及P2P技术的产生,引发了互联网P2P文件共享和视音频传输应用的流行。基于各种P2P协议的网络流量飞速增长并占据了运营商的大部分带宽,因此极大的降低了基于W
随着面向服务计算技术的发展,互联网上出现了大量功能属性相同或类似的服务,用户在构建组合服务时,必须面对海量的可供选择的服务。如何快速从候选服务中选择满足用户需求的服务
入侵检测系统的出现在传统防火墙的基础上又迈进了一大步。然而,入侵检测系统本质上是被动和失效开放的。因为它们的主要任务是分类,并没有采取任何方法阻止攻击得逞。入侵防
基于构件的软件开发技术着重于重用已有的构件来生成新的系统。然而构件本身固有的一些特点,如源代码不可见、分布式运行、平台独立性等,使得传统的软件测试理论和技术对于新
随着无线网络的迅猛发展,随时随地的视频传输需求日趋强烈。无线网络带宽有限且波动、误码率高,而视频传输对网络带宽和延迟有较高要求,因此无线网络中的视频传输面临着巨大
随着互联网的飞速发展,网络拥塞已经成为非常重要的问题。拥塞控制的目的就是采用一定的控制机制,在即保证达到一定吞吐量的前提下,能够提高网络的利用率,并能避免拥塞,保证网络的
由于基于Web的数据库应用技术的成熟,它的市场需求越来越大,软件开发公司也希望通过提高项目的开发速度以增加市场占有率,传统的开发技术显然不能很好的满足需求。本文从当前林
随着信息资源的广泛应用,传统的以单机为主的存储方式已不能满足需要,越来越多的用户已经将眼光转向了网络存储。DAS、NAS和SAN作为网络存储的三大主流技术已经被越来越多地应