Spark平台下的分布式函数依赖发现算法

来源 :小型微型计算机系统 | 被引量 : 0次 | 上传用户:laner12
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
函数依赖发现被广泛应用于分布式大数据分析,是数据清洗、质量评估和语义分析的重要手段.已有函数依赖发现算法主要针对集中式数据,不适用于分布在不同节点上的云计算数据.将分布式数据汇集到集中节点非常耗时,而使用传统集中式方法分别处理分布式节点上的数据会导致错误的结果.已经存在的分布式算法存在内存消耗过大的缺点.因此,本文提出一种基于云计算数据处理平台Spark的快速低内存分布式函数依赖发现算法.该算法提出了多个分布式任务分配策略和基于标识符集一致性的最大等价类元素去重策略,在保障正确性前提下,减少了集合交集运算的次数,加快了处理速度.实验结果表明,与传统集中式算法相比,本文提出的分布式算法在本实验环境下使平均执行时间降低了50%左右,去重策略进一步降低了30%左右执行时间.和已有分布式函数依赖发现算法相比,在有些实例上可以节省大约75%的内存.
其他文献
配电网拓扑结构的优化是配电网运行中的一项重要任务,在正常工况或异常工况下通过改变开关状态位置来实现.本文以网络的有功损失最小为目标函数,并将节点电压、线路容量、径
十年前那个盛夏的早晨,我和唐篁刚步出小旅馆,就被一场大雾包围了.rn我们的目的地是T市直机关宿舍区25号楼.唐篁的四叔说:那地方离长途汽车站顶多七八百米远,沿着大街走,遇红
期刊
目的:   结直肠癌是世界范围内最常发生的恶性肿瘤之一,在我国其发病率和死亡率逐年升高,目前死亡率已跃居恶性肿瘤第2位。尽管确诊时70-80%的患者可以进行根治性手术切除,
草药一见喜是疗效较好,具有广谱抗菌作用的药物,能代替多种抗菌素,付作用较少,为广大医疗单位所利用,各地正积极推广栽培和应用.它的医疗有效成份为内脂类物质,叶片中含量最
在强化学习中智能体通过与环境交互获得奖励值,更高的奖励值需要更优的策略,但在高维复杂的环境中,传统的强化学习算法交互产生的样本复杂度较高,并且会产生过估计问题,导致
针对哈萨克文本分类中词干提取效率低以及传统框架下特征表示维度高、数据稀疏、分类准确率不高等问题,提出基于哈萨克语形态分析的词干提取方法以及wor2vec_TFIDF融合特征表
在毛主席革命路线指引下,我场水稻科研工作,经过10余年的努力,取得了一定的成绩。特别是无产阶级文化大革命以来,重点开展了水稻育种工作,先后培育出67—17、685、66—91、71
系统日志记录了系统的运行信息,是开发人员检测系统异常必不可少的数据.异常检测的首要步骤是将非结构化日志解析为结构化的数据,即从日志中提取模板.针对当前绝大多数日志解
二十年了,我终于可以充满自信地来看大哥大嫂了.我驾着自己的小车奔驰在高速公路,我在心里默默地叨念,大哥,你还记得我这个一面之缘的小弟吗?大嫂,我来还你的茶钱了.