基于分布式框架的并行关联规则挖掘算法研究

来源 :辽宁工程技术大学 | 被引量 : 0次 | 上传用户:mimi107
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
关联规则挖掘是实现从大数据中提取有价值的信息的常用方法,旨在从数据中发现经常出现的项目、高相关性的信息。针对目前单机算法的处理能力已无法适应海量数据的应用场景,同时传统的并行关联规则挖掘方法存在I/O开销大、可扩展性差、计算效率低、资源占用率高等问题。针对上述问题,以Apriori算法和FP-Growth算法为蓝本,结合布隆过滤器和哈希树等数据结构提出基于分布式框架的并行关联规则挖掘算法。其一,基于Hadoop-MapReduce框架结合布隆过滤器提出一种并行挖掘出频繁集算法P-FIM,仅需两次MapReduce过程,同时通过减少MapTask数量、精简事务集且无需生成全局候选集、有效的减少I/O开销,从而提升计算效率。其二,基于Spark分布式框架结合布隆过滤器和哈希树提出一种自适应数据迭代挖掘频繁集的动态关联规则挖掘算法D-Apriori,采用动态自适应寻优方式选择计算效率更高的挖掘模式,从而达到最大化计算效率。实验测试结果表明,通过多个并行算法的评价指标验证本文两种算法的有效性,通过与主流的四种算法基于不同支持度、数据集的对比分析验证本文两种算法都有很好的计算效率,此外两种算法分别基于Spark、Hadoop实现,观察两种框架对算法的提升效果,均能快速挖掘大数据集、Spark对迭代算法D-Apriori提升幅度更大、Hadoop则更适合对内存高需求的P-FIM算法。该论文有图42幅,表13个,参考文献63篇。
其他文献
<正>接地气与可看性问:孙老师,《兔侠传奇》是在什么样的背景下开始策划的?这个过程又是怎样的呢?孙:最初是在2008年《快乐奔跑》完成以后,有了这个片子这么一个想法。当时《
随着微电子产品向高密度、集成化发展,3D叠层封装技术成为主流封装方式。键合作为电子封装的核心技术,直接影响了封装的密度和尺寸,传统的熔融键合温度过高,产生的热应力极大降低封装可靠性,因此,适用于3D封装的低温铜铜键合技术成为近年来的研究热点。本文提出了一种新的键合方法,双侧铜微纳米针锥阵列的室温铜铜超声键合技术,两侧铜针锥表层镀有极薄的中间层(锡或银层),经过短时超声加压,两侧铜针锥互相嵌入,并与
试验以腐乳发酵中常见的毛霉为主要发酵菌,添加提高风味的乳酸菌与酵母菌制作多菌种腐乳发酵剂。运用均匀试验和正交试验对腐乳发酵剂制备工艺中的培养料配方、菌种比例、菌
大病保险是我国简政放权、建设服务型政府的重要尝试。在政府购买服务的发展模式下,有效监管是保障和提升大病保险制度效果的关键环节。文章首先剖析了大病保险"服务外包"的运
近两个世纪以来,人们使用化石能源排放到大气中的CO_2不断增加,由此引发温室效应,并导致多种自然灾害的发生。因此,人为使用化石燃料排放的CO_2已经成为影响气候变化的主要来源。CO_2地质埋存是减少CO_2排放量的有效手段之一,其中咸水层埋存是最具有埋存潜力的埋存方式。CO_2溶解于咸水后,造成CO_2和咸水浓度不同而发生分子间质量传递。传质过程和孔隙结构的非均质性会造成CO_2流动速度不同,从而
<正>3汽车维修行业发展所面临的问题与困难广州市维修协会履行办会宗旨,努力推动行业发展壮大,帮助会员解决热点难点问题。然而,一些严重制约汽车维修行业健康有序发展的瓶颈
患者男性,24岁.右上腹隐痛不适伴不规则低热1月余.无腹泻、黑便史.B超、CT及MRI检查均示肝右叶不均质团块.查体:体温38℃,巩膜、皮肤黏膜无黄染.肝右肋下可及3cm,压痛不明显.
就文学中的重庆形象而言,抗战时期作家的书写具有重要的意义。重庆是当时大后方文化运动的中心,它像磁石一样吸引着大批知识分子、文人、艺术家纷至沓来,它特殊的人文地理环
本文采用硝酸-盐酸-过氧化氢体系微波消解矿业废渣类固体废物样品,使用全谱直读型电感耦合等离子体发射光谱仪同时测定固体废物中Ag、Al、Ba、Be、Ca、Cd、Co、Cr、Cu、Fe、K
<正>自古以来我国就是一个农业大国,农村经济随着社会经济的发展也在逐步前进,这就使得村镇建设步入火热化阶段,然而由于农村的环保措施较弱,这就使得水资源污染愈加严重,加