基于数据特征的分布式键集合识别技术

来源 :南开大学 | 被引量 : 0次 | 上传用户:free_1
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着计算机水平的不断发展以及数据库规模的日益增大,人们拥有海量需要处理的数据。为了能够提升数据的查询质量与处理效率,数据的使用者需要预先知道数据的结构。键集合信息是理解关系表特征和结构的基础,因此键集合信息的识别越来越受到研究人员的重视。事实上,键集合信息在许多领域都有着重要的应用价值,然而现实场景中的数据往往缺失部分键信息。因此,如何能够准确高效地发现大规模数据集上的键集合信息成为了本文的研究内容。  本文对目前键集合识别技术在国内外的研究现状进行了深入的总结与分析,在此基础上以Hadoop平台作为开发环境,提出并实现了一种基于数据特征的分布式键集合识别方案。本文的主要研究工作包括:  第一,提出并实现了分布式的非键识别方法,该方法以数据的水平分区为基础,结合经典的Gordian算法来识别数据集上的非键,为键集合识别过程中的剪枝策略提供了依据。  第二,基于Hadoop平台设计并实现了多种剪枝方法,包括:冗余剪枝、函数依赖剪枝、乘积剪枝以及数据剪枝等。这些剪枝方法能够减少键识别过程的计算量,提高算法效率。  第三,提出了多种键集合识别方案,包括:孩子节点并行验证的子树并行策略(PSS),同层节点并行验证的层次并行策略(PLS),以及基于数据特征将二者结合的综合解决方案(HUD)。此外,为了提高属性组合之间包含判断的效率,本文使用“位结构”表示属性组合,并在此基础上实现了所有的算法。  本文基于真实数据库PICCBM以及标准测试数据集TPC-H设计对比实验,用以评估和验证本文工作的有效性。实验结果表明,相对于同领域内的其他方案,本文提出的键集合识别算法在保证准确度的情况下,算法性能有显著的提升。
其他文献
近几年Web系统数量和网民数量都快速增长,据瑞士互联网研究公司RoyalPingdom的数据2012年全球网站数量已经达到6.34亿个,网站之间的竞争越来越激烈。同时网民数量也在快速增长,
图像质量检测技术发展迅速,在印刷质量检测中起到了非同寻常的作用。印刷过程往往会受到温度、湿度、机器精度、设备操作等各种因素干扰,使得印刷质量达不到既定要求,会产生带有
车辆自组织网络(VANET)包含车辆和路边单元(RSU)两类节点,是一种特殊的移动自组织网络(MANET)。近年来,VANET在学术界和工业界都受到了广泛的关注,成为研究的热点。   VANET中
随着信息科技的飞速发展,数据库技术被广泛应用在各个领域中。现代数据库往往由成百上千个元素所构成,同时由于相关说明文档的缺失现象严重,对于用户来说,要对一个不熟悉的数
软件是IT产业最主要的资产形式。为了防范软件盗版等侵权行为,计算机学者们投入大量的精力用于软件保护技术的研究。其中,能够表征知识产权的软件水印技术最受关注。然而,近几年
高速飞行器在大气层中飞行时,光学头罩与高速气流发生剧烈的相互作用,导致其探测窗口附近形成复杂的流场和温度场,引起气动光学效应,使得红外和可见光图像出现模糊与畸变。为了获
在GEO卫星网络与地面网络多覆盖的区域,用户选择不同网络进行切换的代价是不同的。对于低速移动用户,选择地面网络切换足以保证用户的通信质量。对于高铁等高速移动的用户,在地
随着人们获取知识、传播资源的方式逐渐从翻阅书籍转换为在线图片搜索、图片传输信息等方式,在线教育成为教育领域比较热门的一种方式;同时,在大学教育中学生们越来越频繁的通
安全第一是航空企业永恒的主题,维修工作是航空安全的重要保障,维修工具的科学管理有利于提高维修的效率和可靠性,减少安全事故的发生。近年来,随着各航空企业的规模不断扩大,维修
中低轨卫星星座可以用于对近地空间目标进行有效的跟踪与监视。近地空间目标的出现具有并发性、突发性等特征,由于卫星星座搭载的传感器资源数量有限,可见范围受限,因此,研究适合