基于Hadoop平台的并行DHP数据分析方法

来源 :计算机应用 | 被引量 : 8次 | 上传用户:sweetmeimei
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
由候选项集C_2生成频繁2-项集L_2是关联规则Apriori算法的一个瓶颈。直接哈希修剪(DHP)算法利用一个生成的Hash表H_2删减C_2中无用的候选项集,以此提高L_2的生成效率。但传统DHP算法是一个串行算法,不能有效处理较大规模数据。针对这一问题,提出DHP的并行化算法——H_DHP。首先,对DHP算法并行化策略的可行性进行了理论分析与证明;其次,基于Hadoop平台,把Hash表H_2的生成以及频繁项集L_1、L_3~L_k的生成方法进行了并行实现,并借助Hbase数据库生成关联规则。
其他文献
针对传统有线多信号源的控制数量有限和手动操作不便问题,提出了一种基于Zig Bee技术的多信号源无线控制系统,其主要由Zig Bee星状网络、PC上位机软件和直接数字合成(DDS)信号源组成。采用Zig Bee通信协议栈,以CC2530组建星状网,通过Matlab GUI上位机软件发送控制命令,协调器接收指令并以一对多广播方式无线转发,终端设备接收指令后控制信号源输出信号。设计系统网络容量为256
针对数据仿真过程中表格数据属性间关联难的问题,提出一种刻画表格数据中非时间属性间关联特征的H模型。首先,从数据集中提取评价主体和被评价主体关键属性,进行两重频数统计,得到关于关键属性的4个关系对;然后,计算各关系对的最大信息系数(MIC)来评估各关系对的相关性,并采用拉伸指数分布(SE)对各关系对进行关系拟合;最后,设置评价主体和被评价主体的数据规模,根据拟合出的关系计算出评价主体的活跃度和被评价