【摘 要】
:
FP_Growth算法是一种重要的频繁模式挖掘方法,PFP算法是FP_Growth基于MapReduce的一个并行实现。该算法除了各个节点上的负载不均衡外,具有较高的时间复杂度,同时Hadoop需要频繁地进行输入输出操作,这些都影响了频繁项集挖掘的效率。针对上述问题,本文在Spark平台下对PFP算法的优化进行了深入研究,主要研究内容如下: 首先,针对并行FP_Growth算法中数据集分组负载不
论文部分内容阅读
FP_Growth算法是一种重要的频繁模式挖掘方法,PFP算法是FP_Growth基于MapReduce的一个并行实现。该算法除了各个节点上的负载不均衡外,具有较高的时间复杂度,同时Hadoop需要频繁地进行输入输出操作,这些都影响了频繁项集挖掘的效率。针对上述问题,本文在Spark平台下对PFP算法的优化进行了深入研究,主要研究内容如下:
首先,针对并行FP_Growth算法中数据集分组负载不均衡的问题,提出了一种均衡分组的策略。为了保证组与组之间的负载总和相近,该策略在分组时总是把负载大的项放在负载总和最小的组里来均衡负载。实验结果表明,所提方法较好地解决了对数据集分组负载不均衡的问题,有效提高了频繁项集的挖掘效率。
其次,为了进一步提高频繁项集的挖掘效率,在构造频繁模式树中首先将原始数组中的链表指针项改为布尔值,并在原始链头表结构中添加一张哈希表,这样在遍历频繁项时可以快速找到该项的地址,降低了频繁项插入到频繁模式树中的时间。然后用一个flag标签来表示该项对应的频繁模式树是否为单一路径,分情况挖掘频繁模式。实验结果表明该方法有效降低了构造频繁模式树的时间复杂度。
第三,结合均衡分组策略和优化链头表结构方法,提出了一种基于Spark的并行FP_Growth算法优化方法,该方法在对数据集进行分组时应用均衡分组策略,在本地运行FP_Growth算法时优化链头表结构。实验结果表明该方法不仅降低了分组之间负载的不均衡,而且降低了时间复杂度,有效提高了频繁项集的挖掘效率。
最后,在均衡分组策略中,为了有效衡量各组的负载,设计了一种负载评价指标,该指标通过计算每一组中频繁模式树的迭代次数来评价负载,实验结果表明该指标可以较好地衡量各组的负载。
其他文献
间作是一种优良的生态农业模式,对增加作物产量、提高土壤养分利用率和控制病虫害有显著的效果,但以水稻为主的水田间作研究还很少.我国很多地区稻田都缺硅,硅对水稻而言是必需元素,缺硅将会对水稻生产造成严重影响.目前,在间作条件下,关于水稻硅的研究鲜有报道.本研究以水稻(Oryza sativaL.)和雍菜(Ipomoea aquatica Forsk)为研究对象,探讨两者间作系统中的生态效应以及促进水稻
在许多蛋白中,前导肽(propeptide,pro)作为分子内分子伴侣,可以协助蛋白质的折叠和正确的表达。当前导肽发生变化时,同一编码基因的肽链可以折叠成具有不同空间结构、底物特异性及其它催化特性的构象,形成全新的突变蛋白。米黑根毛霉脂肪酶(Rhizomucor miehei lipase,RML)是一种非常有潜力应用于植物油脂转化的脂肪酶,具有常见的 preproenzyme 型前导肽序列,由于
多蛋白桥梁因子MBF1(Multiprotein Bridging Factor 1)是真核生物广泛存在的、进化保守的转录辅激活因子。已有的报道显示,MBF1主要通过桥联转录激活因子和TBP(TATA-Binding Protein)调控各种胁迫应答基因的转录,并影响细胞和个体生物对环境胁迫的应答。已有的报道还显示,MBF1在调控高等生物应答干旱等胁迫中扮演着重要角色,但有关低等真核生物MBF1
电机系统是社会各行业中最重要的负荷,其消耗了大约70%的电量,电机系统能效水平的提升一直都是研究的热点问题,更高效的电机和系统可以显著降低能耗,并减少对环境的影响,国内外研究学者在高效电机、电机系统节能技术等多方面开展了大量研究,本文重点围绕电机系统节能技术开展研究,主要研究内容如下: 1)针对当前国内外电机系统节能领域研究热点,介绍了应用于电机系统常见的节能技术,并讨论了其针对不同电机和负载类
伴随着社会高效建设和城市人口大量增长,大规模用餐逐渐成为了一道难题。面对用户基数大、排队时间长、秩序混乱等问题,设计一套满足群体高效结算且实现饮食合理化、健康化的系统成为了本文的出发点。基于RFID技术的智慧餐台系统在此背景下孕育而生,完备的系统设计满足了群体性就餐的高效性、关注个体饮食的差异化和营养化、优化商家和管理员的操作程序。 本文就智慧餐台系统的设计与实现进行了具体的论述。本文从用户角色
上反射镜稳瞄系统能够隔离载车的扰动,使安装在载车上的瞄准设备不会因为载车运动时受到干扰而丢失目标,确保瞄准设备在载车静止或行进间都能够稳定地瞄准和跟踪目标。本文在已有的上反射镜稳像式火控系统的基础上,对稳瞄系统的伺服控制器部分进行重新设计,以提高稳瞄系统的稳像精度。作者在研究了大量关于上反射镜稳瞄伺服系统的资料后,设计了一款基于ARM7微处理器的上反射镜稳瞄伺服控制器,并对控制器中涉及到的伺服控制
近年来,国际安全形势日趋复杂,各军事强国也在加速发展新型武器装备,相继研制出了一系列先进的空中作战武器系统,这对地面防空作战武器系统提出了新的挑战。为了能够快速跟踪打击高速空中机动目标,武器伺服系统驱动功率需求大大增加、控制精度要求也变得更高,同时负载惯量在系统运行过程中会在较大范围内发生变化。为此,本文针对变惯量情况下多电机同步驱动伺服系统控制中存在的问题,重点研究了多电机同步控制结构以及相应的
该文研究切换系统的稳定性与鲁棒镇定问题.全文概述如下:第一章简单介绍了切换系统的基本特性,以及切换系统的研究近况.通过实例说明切换系统的应用背景,最后简要介绍了该文的主要工作.第二章讨论了一类线性切换系统的状态反馈鲁棒镇定,该系统的标称系统存在共同Lyapunov函数,给出了系统在给定的切换策略下可鲁棒镇定的条件,然后将该结果推广到非线性的情形.第三章对一类标称系统具有共同Lyapunov函数的不
随着先进的视频获取和显示技术的不断发展,视频由原来的标清视频逐步发展到现在的高清、超高清视频。视频的数据量也随之增加,其对数据的存储和网络传输提出了更大的挑战。而视频编码能高效地压缩视频数据,这使得视频编码技术的研究成为工业界和学术界研究的热点问题。为满足用户对高清,超高清视频的应用需求,高效视频编码标准(HighE?ciencyVideoCoding,HEVC)及其3D扩展标准(3D-HEVC)
随着半导体技术的快速发展,集成电路制造工艺已达到了纳米级的水平。单个集成电路芯片可以实现更加复杂的系统功能模块,即片上系统(SystemonChip,SoC)。可编程逻辑门阵列(FieldProgrammableGateArray,FPGA)成为片上系统设计的主流技术之一。在SoC设计中,知识产权核(IntellectualProperty,IP)复用技术是降低集成电路设计成本与缩短生产周期的关键