基于Hadoop的并行数据挖掘的研究

来源 :南京邮电大学 | 被引量 : 0次 | 上传用户:gang007
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着“互联网+”时代的到来,产生的数据量呈指数性爆发,涵盖了各种非结构化数据。如何从多变的、复杂的海量数据中找到有意义的模式和规则,来解决科学、医疗、能源、商业、政府管理、城市建设等领域的问题成为重点。数据挖掘是统计学、数据库、机器学习、人工智能等多领域的融合,但是传统的数据挖掘处理及改进的方式大多串行连接在单机上,由于单机处理能力有限且内存不足,处理效率低下,并不适合大规模数据的挖掘工作。在这种情况下,基于Hadoop的并行数据挖掘成为新的研究热点。Apriori算法是关联规则挖掘最为经典的算法,Apriori算法通过逐层迭代方式,采用串行自连接和剪枝操作来挖掘频繁项集。Apriori算法的缺点是重复扫描数据库,产生大量的候选集,算法效率较低。基于MapReduce的并行Apriori算法解决了传统Apriori算法多次扫描数据库的问题,但是其候选集仍然由频繁项集经过串行自连接产生,并产生大量的候选集中间数据。本文重点讨论了如何提高基于MapReduce的Apriori算法挖掘频繁项集的效率,对连接步进行并行化改进,提出大数据环境下挖掘频繁项目集的一种改进算法—C_Apriori算法。该算法通过Map、Reduce过程从频繁k-项集中并行得到k+1项候选集Ck+1,使得Apriori算法产生频繁项集的整个过程并行化,减少了迭代过程中候选集数目数量,节约了存储空间和时间开销。通过时间复杂度进行分析比较,C_Apriori算法在处理大规模数据时会大大减少连接步的时间消耗。本文最后,使用HBase数据库,设计基于Hadoop的并行数据挖掘系统,并将C_Apriori算法在Hadoop并行数据挖掘系统进行了测试,结果表明改进算法在大数据和较小支持度环境下都具有更高的效率,且能取得优异的加速功能。该方案在某科技公司的智慧社区系统中得到成功应用。
其他文献
日前,笔者跟随省科协在西乡县调研科技助力精准扶贫工作,深入了解茶协会带领茶农科技致富的情况后,深刻体会到协会把茶产业链形成的可持续发展经济模式作为扶贫工作重点大有
报纸
2015年2月2日,中华全国总工会书记处书记、法律工作部部长郭军在新闻发布会上批评富士康等企业长期违法安排劳动者长时间加班,致使部分劳动者出现各种心理健康问题,导致过劳
目的:观察并剖析血液透析患者建立自体血管内瘘中应用改良式动静脉端侧吻合术的应用成效。方法:将160例尿毒症血液透析患者分为试验组和对照组;对照组:采用传统的头静脉桡动
<正> 我是天津市武清县东马圈乡第一个奶牛专业户。1987年我贷款7,000元买了3头奶牛,1988年已经全产奶了,3头牛每天产奶55公斤。我算了一下,我家一年除去成本净收入可达6,000
期刊
南朝对吴歌西曲的接受大致存在两个阶段,宋齐时期以接受原生态吴歌西曲为主,对其音乐风格改变不大;梁代以后以加工改造吴歌西曲及创作吴歌西曲歌辞为主。吴歌西曲的传播方式
设计了一种基于AT89C51单片机的16×16LED点阵动态显示系统,给出了LED点阵动态显示原理和汉字取模方法;在Proteus环境下进行了点阵显示系统行、列驱动电路硬件设计,同时采用K
结合当前水资源短缺形势的日益严峻,对工业中热物流温度差别大、水冷器数量多的循环冷却水系统进行了优化研究,并引入新的优化方案,即水冷器网络采用多级中间水道的系统结构
目的:比较异维A酸联合液氮冷冻治疗面部扁平疣与单纯液氮疗法的差异性。方法:随机将102例扁平疣患者分为两组。治疗组:62例,口服异维A酸10mg,每日3次,4周后改用每日2次,8周后
目的研究血清成纤维细胞生长因子23(FGF23)、胎球蛋白A(FA)水平与维持性血液透析患者冠状动脉钙化的关系。方法选择2016年4月~2017年4月西安交通大学第二附属医院收治的维持
<正>舞蹈是文化的一种表述形式,人类借助舞蹈这一独特的艺术形式,把抽象的、宏观的各种文化因素转化为形象性的具体的艺术表征。任何舞蹈的形态,都是由文化因素所决定的。本
期刊