基于MapReduce的频繁项集挖掘算法研究

来源 :重庆邮电大学 | 被引量 : 0次 | 上传用户:ywh831002
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
大数据不仅仅是一大热点问题,也是一种重要的资源。数据在我们的生活中无处不在,如何从数据中获得有用的信息就显得尤为得重要。数据挖掘可以把数据的价值运用到日常的生产生活中,因此,数据挖掘成为处理、分析大数据的重要技术。数据挖掘有分类、关联分析、聚类分析及异常检测等不同的分支,其中关联分析是数据挖掘算法中的一大热点研究课题。本文关于关联分析的主要研究内容如下所示:通过对经典的数据挖掘算法地研究,得出经典的数据挖掘算法普遍都存在效率低、内存损耗大等问题。为此,提出了结合遗传算法的Apriori的改进算法(GNA),这是一种基于新的遗传算法来寻找频繁项集的算法。简单易于实现是Apriori算法的长处,但其候选项集的拼接及生成过程过于复杂,而且Apriori算法对候选项集挖掘一次就要扫描一次数据库,这些缺陷是造成Apriori算法效率低、内存损耗大的主要原因。通过结合遗传算法来优化搜索空间,并采用Apriori的剪枝策略,研究了一种用加约束的交叉、变异算子来简化Apriori算法的候选项集的拼接及生成过程的新算法。传统的数据挖掘算法都是在独立模式下进行挖掘的,其挖掘效率已不适合进行大数据挖掘。因此,将改进Apriori算法与Hadoop进行结合,提出一种基于MapReduce的大数据关联模式并行化挖掘算法(Mr_GNA)。Mr_GNA算法将GNA算法与Hadoop的MapReduce并行化运算框架相结合,实现算法的并行化计算。为了确保Mr_GNA算法能在Hadoop集群下,高效的进行挖掘,采用了合理的负载均衡策略。用库尔钦斯基系数和支持度不平衡比率IR来对频繁模式进行评估。实验结果表明,结合遗传算法的Apriori改进算法相比于Apriori和NSFI算法,在时间复杂度、内存损耗以及挖掘效率上都更具优势。改进的大数据挖掘算法在集群模式下效率更高,并且优于MRApriori和PFP-Growth等并行化大数据挖掘的算法,证明了Mr_GNA算法能有效的挖掘频繁模式,能满足大数据挖掘的需求。
其他文献
<正>2016年12月29日,由中国美术学院主办、中国美术学院民艺博物馆承办、河南省巩义市人民政府协办的"人在草木间——中国茶生活艺术展"在中国美术学院民艺博物馆开幕。展览
第一部分基于近亲婚配家系识别复发性流产的致病基因及突变目的:本研究旨在利用全外显子组测序(WES)技术识别1个复发性流产(RPL)近亲婚配家系的致病基因及突变,为了解RPL的病理机
研究背景:乳腺癌发病率呈逐渐上升趋势,早期诊断是提高疗效和患者生存率的关键。近年来分子影像学的快速发展为乳腺癌的早期精准诊断带来了新的希望和新的思维模式,而以纳米
目的:中国是食管癌的发病大国,食管癌是最常见的恶性肿瘤之一,河北省更是食管癌的全国高发区。食管癌的治疗方式很多,目前仍以手术切除为主,尤其是早中期食管癌患者的首选治
研究表明儿茶素能够降低心血管疾病的发作和进展。本文从儿茶素抗氧化作用;调节脂质代谢;抗血栓、改善血液高凝和高黏状态;对心血管保护;抗动脉粥样硬化等方面论述了儿茶素防治心
目的探讨降低食管癌术后患者鼻胃管脱管率的有效方法。方法成立持续质量改进小组,通过开展品管圈活动,采用PDCA(Plan计划,Do实施,Check确认,Action处置)循环的4个阶段10个步
肝细胞癌(HCC)是全球最常见和最致命的恶性肿瘤之一,HCC大概占原发性肝癌的85%-90%。据统计,全球范围内每年有一半肝癌病人(250,000/500,000)死于肝细胞癌。其主要原因可归结
<正> 1.工艺分析 一个工艺试验零件,材料为LF21,形状尺寸如图1所示。 以前的加工方法为铝棒车削,但是这样加工极不经济,材料利用率仅仅达到8%,而且加工工时也很长。 为了节省
孙中山等革命者在辛亥革命之前一直以"驱逐鞑虏,恢复中华"为诉求之一。但辛亥革命的激荡中,清政府的摇摇欲坠却也给当时有远见的中国政治和思想精英提出了难题,并给了他们反
<正>早在2004年,佳都科技以"成为中国轨道交通智能化领域领导者"为愿景,顺应数字化和智能化的产业大趋势,全面进军轨道交通领域,打造机电总承包的商业模式。如今,佳都不仅拥