基于Hadoop的改进Apriori算法研究及应用

来源 :安徽理工大学 | 被引量 : 4次 | 上传用户:marker1900
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
今天,我们正被数据包围。经过调查全球总共有四十多亿部电话、二十多亿网络用户,这么多的用户每时每刻都在不停地产生数据。同时人们还使用手机进行发送短信、上传自己制作地视频、更新自己在社交网站上的个人动态信息、转发别人的微博等等。数据如此快速地增长向那些互联网公司巨头(国内的百度、淘宝、腾讯,国外的Facebook、亚马逊、微软)提出了很大的挑战。它们每天都需要对用户产生的海量数据进行分析处理,从而发现哪些网站人们喜欢点击和阅读,哪些商品消费者喜欢购买,哪些广告能够吸引用户进行点击。但是传统的算法和工具对于处理如此规模的数据集的处理能力的越来越低效同时受制于内存大小。针对课题的要求,了解当前Hadoop和并行Apriori算法国内外研究进展以及成果。在此基础上本文详细地介绍Hadoop技术和数据挖掘技术的相关概念和知识,其中在Hadoop技术中着重介绍了Hadoop的两个核心:HDFS系统文件系统和编程模型MapReduce。接下来对传统Apriori算法的思想、实现过程等等都进行了详细地研究,于是在此前提下提出一种适用大数据环境改进的并行Apriori算法。本改进算法主要是利用Hadoop的MapReduce编程模型将原始数据库进行划分后并行化倒序处理数据的思想。最后对改进的算法的思想、设计过程、移植、应用到网上购物等等都进行了详细地介绍,同时还使用实例分析法验证了算法的可行性。实验通过对比分析法得到了改进的算法执行效率得到了很大的提高及其具有横向扩展性。
其他文献
原发性支气管肺癌(primarry brinchogenic carcinoma),简称肺癌 (lung cancer),是起源 于支气管粘膜或腺体的恶性肿瘤。肺癌是临床上最常见的呼吸系统恶性肿瘤 , 其全球发 病
<正>全国高校实验室工作研究会会刊·中文核心期刊·RCCSE中国权威学术期刊(A+)·中国高校优秀科技期刊《CAJ-CD规范》执行优秀期刊·中国科技论文在线优秀期刊《实验技术与
目的 : 对腹部手术后促进胃肠道功能恢复的护理满意度进行探讨。方法 对象为 190 例行腹部手术的患者,都选自 2017 年 10 月 ~2019 年 2 月期间,采用盲选法将患者平分 为每组
<正>~~
随着司法鉴定在诉讼中的作用越来越重要,以及与之伴随的我国社会鉴定市场中出现的种种问题,都表明了建立和完善司法鉴定检察监督制度已越来越有必要。但目前对司法鉴定活动的
目的:是观察中老年心血管疾病合并社区过的行肺部感染的的治疗状况,并提出解决建议。方法:是随机抽取本院的 86 名患者,人数均等的分为观察组与对照组,分别给予 头孢呋辛钠和
目的:探究心理干预措施在甲亢患者护理中的临床效果。方法:选取我院 2018 年 1 月至 2019 年 1 月收治的甲亢患者 92 例作为研究对象,并随机分为 46 例常规护理的对照 组和 4
学界讨论叶芝诗歌作品时,大多考察叶芝的神秘主义和象征主义。叶芝诗歌蕴含丰富的时间主题,时间既有衰亡意象的直线发展性,又有永恒意象的圆形循环性,且从末世论这一视角出发
现如今,人们对身体健康与医疗方面的观念有了明显提高,对医疗质量的要求也提出了新的要求,倘若不能妥善处理医患关系,势必会引起医疗纠 纷,会影响医院声誉。那么,就需要做好
本文回顾了欧美更替农业、东南亚综合农业的兴起和发展,评价了国内对生态农业的不同理解和对我国农业发展道路的不同认识,指出在中国走欧美式的生态农业道路是不行的,必须增