分布式关联规则挖掘算法的研究

来源 :西安理工大学 | 被引量 : 0次 | 上传用户:xiongxiaoxue
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在数据挖掘范畴中,关联规则算法是至关重要的一个分支。在计算机技术与互联网飞速发展的今天,金融、电信、保险等多领域日常数据呈现出爆炸式地增长,分布式关联规则算法有了更广阔的发展空间。已有的并行Apriori算法普遍存在数据库扫描次数多、内存损耗高和节点间通信量大等无法同时最优化的问题。本文提出一种基于加权项集的并行Apriori算法,将原始数据库转化为布尔型矩阵和权值矩阵,减少了内存的消耗;利用水平划分把矩阵切割成n个小矩阵,引入最大项集长度限制了对现实意义微小的候选项集生成,使用矩阵运算计算候选项集的支持度和平均权值,缩短了算法的运行时间;使用最小支持度和最小平均权值双重阈值,减少候选项集的生成。本文的主要工作有以下几点:(1)对Hadoop分布式系统的研究:详细介绍了 Hadoop中的核心技术和运行机制,包括分布式文件系统(HDFS)、数据库HBase和MapReduce计算框架。介绍了数据挖掘的基本概念与基于Hadoop的数据挖掘系统的需求和基本框架,最后给出了系统模型。(2)对并行Apriori算法的改进研究:针对已有并行Apriori算法存在的多次扫描数据库、内存损耗高、节点通信量大及I/O负载严重等问题,提出了一种基于加权项集的并行Apriori算法。该算法使用最小支持度和最小平均权值双重阈值限制候选非频繁项集的生成,并用矩阵运算计算项集支持度和平均权值,设定最大频繁项集长度来挖掘对现实意义较大的项集,通过一次扫描数据库生成全部频繁项集。(3)搭建实验平台,验证改进后的算法效率:通过搭建Hadoop分布式集群,对Apriori算法、AprioriMR算法与基于加权项集的并行Apriori算法从数据规模、节点个数、支持度大小等几个方面进行性能对比。实验结果表明:在最小支持度一定时,节点个数越多本算法效率越高,但当最小支持度增加到一定程度时,由于满足最小支持度的候选项减少,改进算法效率提高变得缓慢;在最小支持度一定且用多个节点挖掘相同规模的数据时,改进算法比AprioriMR算法使用更短的执行时间;当节点数增加到一定程度时,节点间统计候选项集支持度和平均权值的时间也随之增加,改进算法的效率会有所下降。
其他文献
全波形反演(FWI)是近年来发展起来的一种较为热门的地震成像技术。相比于常规的地震反演方法,该方法可以利用到更多的地震波场数据,具有更高的反演精度。虽然近年来该方法得到了长足的发展,但是由于三维弹性全波形反演过高的时间成本,目前对该方法的研究仍然多集中于二维以及声波领域。而实际的地质情况是三维的,所以二维反演方法可能会存在一些问题。例如:在不知道地质构造走向的情况下,二维反演可能会得到错误的反演结
目前大多数手背静脉识别的研究集中在用户高配合度、单采集设备的条件下,而在互联网非常普及的现今社会,存在着不同的采集设备、不同的地域环境、不同的手背摆放姿势以及用户
形形色色的信息汇聚成浩瀚的数据海洋,如何快速对数据进行准确的分类并从中提取出有用的信息已经成为人们面临的一大现实问题,因此,如何解决这一难题的工作已经逐渐变成了一
道路交通发展带来的能源消耗和空气污染问题已经成为交通领域研究的热点,生态驾驶由于其见效快、成本低等特点受到了国内外众多学者的关注,随着道路交通的发展,该理念已成为面向道路交通节能减排的重要措施。目前生态驾驶的发展,仍存在以下几个问题:生态驾驶行为的评价指标多以油耗作为评价指标,较少考虑到排放指标;生态驾驶行为的评价往往只能依靠一些定性的理论知识,仅仅从单一面来对驾驶行为进行评价,无法建立全面的生态
基于磁耦合谐振式的可充电无线传感器网络(WRSNs)中,能量传输效率和功率是网络能量分配中主要考虑的因素。影响能量传输效率和功率的因素为节点线圈间角度、高度、距离以及互
诱发电位(Evoked Potential,EP)是判断神经系统通路完整性或是否发生损伤、病变的重要信号之一,它的实时监测和分析在临床医学研究中具有重要的意义。然而,诱发电位常伴有强
随着数字化影像技术的不断发展,图像融合技术被广泛应用到医学领域。彩色眼底图像与荧光造影眼底图像作为两种常见的眼底图像,它们对于病变以及组织信息的表达侧重点不同,为
面对化石燃料不断消耗带来的挑战以及全球变暖问题日益严峻的威胁,新能源的发展势不可挡,其中,全球的风电行业保持快速而强劲的增长。尽管截至目前,我国的风电累计装机全球首屈一指,但风电利用率却低于其他国家。造成这一问题的主要原因是,风的波动性和不确定性导致风力发电机组的控制变得复杂,从而给风电并网带来一定困难。为了将风能物尽其用,最经济可行的方法是对三维空间中的自然风进行准确测量,由此得到全面的预览信息
作为全国率先试点个人住房房产税政策的城市之一,上海在房产税试点政策方面的实践对我国其他城市的房产税改革具有较好的借鉴意义。根据国务院第136次常务会议的精神,上海市
随着人类认知能力和需求的不断提高,传统的图片和灰度视频、彩色视频等已经不能够传达人类所需的所有信息。深度相机的出现,是计算机视觉、图像处理等领域的一个创新,深度传