【摘 要】
:
函数依赖发现,是一种面向关系型数据的重要分析技术,是数据清洗、质量评估和语义分析的重要手段,被广泛应用于分布式大数据分析。在数据中正确发现函数依赖关系具有较高的计算复杂度,目前存在的函数依赖发现方法大部分属于集中式算法。在大型企业内部,由于用户数据的急速增长,基于云计算平台的分布式数据库被广泛使用。已有函数依赖发现算法主要针对集中式数据,不适用于分布在不同节点上的云数据。将分布式数据汇集到集中节点
论文部分内容阅读
函数依赖发现,是一种面向关系型数据的重要分析技术,是数据清洗、质量评估和语义分析的重要手段,被广泛应用于分布式大数据分析。在数据中正确发现函数依赖关系具有较高的计算复杂度,目前存在的函数依赖发现方法大部分属于集中式算法。在大型企业内部,由于用户数据的急速增长,基于云计算平台的分布式数据库被广泛使用。已有函数依赖发现算法主要针对集中式数据,不适用于分布在不同节点上的云数据。将分布式数据汇集到集中节点统一处理,无法利用分布式云计算平台加快处理速度;而使用传统集中式方法分别处理分布式节点上的数据会导致错误的结果。已有分布式算法较少,且存在内存消耗较大与负载不均衡等问题。已有研究提出了多种具有不同内存与处理器消耗特征的集中式函数依赖发现算法。将集中式函数依赖发现算法进行分布化,需要根据集中式算法的特点精心设计分布式处理策略,在保证准确性的同时,提高处理效率。目前,已有研究只针对部分集中式算法提出了一些分布式函数依赖发现算法,但是存在内存消耗较大与负载不均衡等问题。同时,已有分布式算法主要采用传统Map Reduce计算平台,而采用内存计算技术的Spark分布式计算平台可以有效减少中间数据存盘时间,加快处理速度。因此,基于已有集中式算法,本文提出了四种基于Spark平台的具有不同特点的分布式函数依赖发现算法。提出了一系列分布式任务处理策略与优化方法,通过实验证明了提出算法的有效性,并对4种分布式算法进行了对比分析。主要工作如下:(1)面向Spark平台,提出基于空间遍历的分布式函数依赖发现方法并设计了数据迁移和搜索等策略,从而保证了每个节点任务的负载均衡并且输出的结果都是最小函数依赖项。并且提出了无需对原始数据多次迁移的分布式算法从而减少数据迁移量和算法运行时间;(2)面向Spark平台,提出基于一致集的分布式函数依赖发现方法并设计了两个任务分区策略和二元组去重策略,从而保证任务并行执行并减少了生成的二元组数量;(3)在多组数据集(包括合成数据集和真实数据集)上对提出的算法进行测试、分析;验证提出的分布式算法的正确性和相关优化方法的有效性;同时对提出的所有分布式函数依赖发现算法进行了多方面的对比,包括时间消耗、内存消耗和数据迁移量;阐述不同算法的特点,并说明其适用场景。
其他文献
多基地雷达由于采用收发分置的构型,所以相对于单基地雷达系统而言,多基地雷达的安全性和隐蔽性更高,并且可以获得更多关于目标的散射信息。考虑到多基地雷达系统较为复杂且成本较高,如果通过减少系统发射机和接收机的数量来降低系统的复杂度和成本会导致传统成像的效果不佳,所以在这种情况下,进行多基地雷达稀疏成像的研究是十分有意义的。然后因为基于压缩感知的稀疏重构成像的性能与发射机和接收机的空间展开性有关,所以可
近年来,网络安全威胁日益突出,网络安全风险不断向政治、经济、文化、社会等领域传导渗透,各国加强网络安全监管,持续出台网络安全政策法规,数据安全问题引起前所未有的关注。仅就2018年来看,世界范围内就发生了多起信息泄漏事件。互联网平台的安全状况不容乐观。Spring家族发展至今,可在任何类型的部署平台上为基于Java的现代企业应用程序提供全面的编程和配置模型。已经成为现在基于Java的最主流的框架之
相控阵天线技术是雷达技术以及现代通信技术的重要组成部分,日益增强的军事及民用需求,有力推动着相控阵天线技术的迅猛发展,宽带和多波束是未来相控阵天线发展的重要方向。多波束接收组件是相控阵天线的重要组成部分。本文基于微波多层板技术以及微波多芯片组件技术(MMCM,Microwave Multi-Chip Module),同时结合微波单片集成电路(MMIC,Microwave Monolithic In
红外弱小目标检测技术是红外成像制导、反导系统、无人机入侵检测、基于热成像的泄漏检测等系统的关键技术之一。由于目标成像距离远、目标信号衰退大,且红外图像易受环境辐射和传感器噪声影响,获取到的图像具有很低的信噪比,弱小目标在整个图像中所占的像素非常少,难以依靠尺寸、纹理或形状以及结构特征来进行检测判断,仅依靠目标本身的灰度信息无法准确检测出弱小目标。因此,复杂场景下的红外弱小目标检测方法一直是目标检测
随着现代雷达的不断发展,相控阵雷达需要满足宽频带工作、大空域覆盖的高性能,对应的雷达天线则需要具备宽带工作、宽角扫描的能力。Vivaldi天线具有宽频带、宽波束以及低交叉极化的优良性能,是高性能宽带宽角扫描有源相控阵天线的重要研究课题之一。本文结合科研项目,对Vivaldi天线单元以及基于Vivaldi天线的有源相控阵进行研究,主要内容可分为以下三个部分:1.Vivaldi天线单元的研究:基于Vi
伴随着现代通信技术的发展,微波通信凭借其波段频带宽容量大、方向性较强等特点成为现代通信的主流。本文基于S波段的微波通信频段,完成了对S波段收发系统的可编程化和集成化的设计。首先,本文对微波通信系统的发展动态进行了调研与分析,重点介绍了收发机结构及微波通信的主要技术指标。根据工程应用背景及应用要求,对系统的指标进行了详细的规定。并依据指标要求,对系统功能及电路进行了可编程化的设计,使得系统的输出频率
可搜索对称加密是一种密码原语,它能够实现在无需解密的情况下对加密数据进行搜索。Stefanov等人在2014年的NDSS会议上提出了可搜索对称加密中的一个新的安全定义——前向安全,并给出了一个基于ORAM技术的前向安全的可搜索对称加密方案。近年来,一些对可搜索对称加密的攻击研究强调了前向安全的必要性。本文从效率以及功能性角度,对现有前向安全的可搜索对称加密方案进行研究,并提出了两个改进的前向安全可
文本情绪分析是自然语言处理领域的一个重要研究方向,但是该任务仅关注情绪类别,属于比较浅层的情绪分析任务。而我们有时候更关心到底是什么原因导致了这些情感,由此衍生了更深层次的情绪分析任务:情绪原因抽取。然而,该任务存在一些问题:首先在抽取原因前必须提供情绪标注,这限制了该任务在实际场景中的应用;其次先提供情绪标注后抽取原因的方法忽略了情绪和原因之间的相互作用。为了解决这些问题,去年一个新的任务被提出
近二十年无线通信系统的发展厚积薄发,各种无线通信标准和协议如雨后春笋般不断涌现,这对无线通信设备的兼容性提出了更高的要求,而其中尤为重要的一方面就是工作带宽。信道带宽的增大,一方面可以提高数据传输速率,另一方面也可以使无线设备兼容更多的通信标准和协议。除此之外,超宽带技术还具有空间分辨率高、多径衰落小、抗干扰能力强以及等效功耗低等优点,因此超宽带是未来无线通信设备发展的重要趋势。接收机前端模块作为
视频目标检测是场景理解中的一个热门研究课题。深度学习作为近年来人工智能领域最为火热的技术,在目标检测任务应用广泛。图像目标检测就是对图像中存在的目标进行分类并用目标框将其框住。比起图像目标检测,视频目标检测还需考虑到视频中的帧间关系,以及如何应对模糊、失焦等情况。使用深度学习进行目标检测,首先要使用卷积神经网络对图像进行特征提取,然后使用区域建议网络得到候选区域,最后对候选区域对应的特征进行分类和