基于Hadoop的Apriori改进算法研究

来源 :计算机科学 | 被引量 : 0次 | 上传用户:m397760109
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
对于规模庞大的事务数据库,传统的并行Apriori算法在挖掘中会在数据IO上有较大的时间开销。从压缩事务、减少扫描次数、简化候选集生成3个方面对Apriori算法进行改进。提出了以元素"0"和"1"表示事务的布尔矩阵模型,并引入权值维度,压缩了相同事务的矩阵规模。同时,动态地进行剪枝,矩阵的"与"运算用于候选集合的生成。将改进后的算法在Hadoop框架上进行并行化实现,实验表明该算法适合大规模数据挖掘且具有良好的伸缩性与有效性。
其他文献
SHVC是高效视频编码(HEVC)标准的可伸缩扩展,它的最新版本于2015年上半年由ISO/IEC和ITU-T同时发布。HEVC的第1版已经支持时间可伸缩性,除此之外SHVC又进一步提供了空间、质量
美国超短蔓黑红薯是由广东生物技术研究所从国外引进的一个黑红薯新品种。该品种薯块呈纺锤形,单薯重300~800克,最大1000克左右,结薯多而均匀,单株结薯4~6个,薯面紫黑、光亮、
张秀亚是台湾女性文学的重要奠基者之一,她曾于1938年考入天主教辅仁大学,1939年至1942年担任该校校园刊物《辅仁文苑》编辑,这期间的张秀亚在创作和生活方面有较大转变。考
根据《宪法》的规定,审计机关代表国家和人民群众的利益,依法行使审计监督权。为保障审计监督活动顺利进行并获得预期的效益,必须为此付出(或消耗)相应的人力、财力和物力,而人力、
设计了一种认知网络系统结构即独立于传统OSI七层结构的新的认知层,方便认知网络实现中的模块化,并降低未来网络系统实现的复杂度.给出了认知层的功能实现模块,阐述了2种认知
作为最基层的县级广播电视台,节目创优,既是提高地方台宣传质量和改革创新的重要举措,又是检验一个广播电视台综合办台水平和竞争软实力的重要标准。在新媒体融合发展的今天,
随着我国社会主义市场化的形成,就业模式和就业结构发生了变化,自主创业成为大学生就业的重要途径。创新和创业是引领国家发展的动力。在"大众创业创新"的背景下,是创新驱动
近年来,随着国内各种类型机床改造需求的扩大,机床改造已经逐渐形成了一个产业。其中绝大多数是数控机床的改造,也有一部分来自非数控机床的升级改造。在数控机床的改造和非
【目的】了解广西水牛瘤胃中细菌的组成及其可能的降解纤维素细菌的主要类群。【方法】提取水牛瘤胃内容物和高效降解滤纸的水牛瘤胃内容物的富集培养物的宏基因组DNA,以宏基
流通产业的发展,不仅直接促进国民经济的进步,并且对国民经济具有溢出效应和外部性作用。为此,对黑龙江省流通产业影响力测度并对其做出正确的评价,是进一步促进黑龙江省流通