【摘 要】
:
随着网络信息技术的快速发展,数据量呈现爆炸式增长,对数据挖掘技术提出了严峻的挑战,传统的数据挖掘技术在对这些海量数据进行数据挖掘时,呈现出效率低下,甚至无法完成等一系列问题。大数据、云计算技术的出现,为上述问题提供了良好的解决方案,其分布式存储、计算模式有效解决了内存需求大、磁盘I/O多等诸多问题。关联规则算法是数据挖掘中最经典、最成熟的算法之一,其主要功能是从相互关联的数据集中找出项与项之间的关
论文部分内容阅读
随着网络信息技术的快速发展,数据量呈现爆炸式增长,对数据挖掘技术提出了严峻的挑战,传统的数据挖掘技术在对这些海量数据进行数据挖掘时,呈现出效率低下,甚至无法完成等一系列问题。大数据、云计算技术的出现,为上述问题提供了良好的解决方案,其分布式存储、计算模式有效解决了内存需求大、磁盘I/O多等诸多问题。关联规则算法是数据挖掘中最经典、最成熟的算法之一,其主要功能是从相互关联的数据集中找出项与项之间的关系。本文基于Hadoop对经典的关联规则算法Apriori和Fp-Growth进行并行化改进,主要研究内容如下:对Apriori算法存在的生成大量的候选项集、多次扫描事务集、消耗大量的时间三方面缺陷进行改进。将剪枝策略运用在MapReduce编程模型中,对原始Apriori算法进行改进,有效降低了计算复杂度;在此基础上引入HBase继续对MR-Apriori算法改进,有效提高数据访问效率。Fp-Growth算法是对Apriori算法的一种优化,有效解决了Apriori算法中生成大量的候选项集、多次扫描事务集等弊端。但是,Fp-Growth算法在进行海量数据挖掘、最小支持度较低时,仍然存在着内存消耗大、计算时间长等一系列问题。本文在运用合并剪枝策略对Fp-Tree进行有效剪枝的基础上,基于Hadoop对Fp-Growth算法进行了并行化,并通过动态分组方法实现了负载均衡,提出了HDGFP算法。在Hadoop集群上对上述改进算法进行了对比实验和显著性分析,实验结果表明,基于Hadoop改进后的Apriori算法和Fp-Growth算法具有更高的高效性和良好的可扩展性,Fp-Growth算法虽然在效率上高于Apriori算法,但其在支持度较低时,会因消耗内存过大而运行失败,而Apriori算法则不会出现这样的情况。
其他文献
<正>白酒[1]是中国传统蒸馏酒,由淀粉或糖质原料发酵蒸馏而得,酒质无色(或微黄)透明,经贮存老熟后,具有以酯类、醇类、酸类为主体的复合香味。到目前为止,国家公认的白酒主要有
目的:分析手术室护理人员护理危险因素,提出相应的防范措施。方法查找相关文献资料,并结合手术室护理工作中的实际情况,分析手术室护理工作中潜在的护理危险因素,从而提出相关的防
中国特色社会主义进入新时代,检察事业发展站在了新的历史方位。做好检察工作,必须要适应新时代的新特点、新形势、新要求,切实加强和改进各项检察工作,努力答好新时代检察工作人
近日,国家电网公司“分布式光伏电源接入配电网的规划设计和运行控制技术研究”项目正式通过科技成果鉴定。该项目在分布式光伏电源并网关键技术研究方面取得重要突破,标志着我
1变频器PID控制原理在过程控制中,为了保证被调量恒定,例如温度或压力,最常用的方法就是采用闭环控制。所谓闭环控制就是通过传感与检测元件把被调量的实际值测量出来,将它的全部
<正> 现在,电脑已经作为一种多通的家用电器进入了家庭,可自从电脑搬回家,你可曾为它清扫过灰尘?灰尘可是元器件的一个大敌,如果你的电脑尽出些莫名其妙的问题,说不定就是灰
飞利浦公司是飞利浦兄弟于1891年在荷兰安多芬创立的,开始生产白炽灯泡,后来逐步扩大到生产各项消费类电子产品,家用电器、通讯设备、电子零器件、半导体、工业电子和医疗系
文章在分析白石水库调度方式和2001-2016年16a水库淤积量的基础上,确定了水库汛期和非汛期两方面淤积量影响因子。在此基础上,建立了遗传算法的BP(GA-BP)神经网络模型,从汛期和
……………………………闻华问…………………刘汝慧答问 请问一台无铭牌发电机如何测量出额定容量? 答 如果对这台发电机的所有情况都一无所知,是无法测出其额定容量的。