基于MapReduce的k-means聚类算法并行化研究

被引量 : 0次 | 上传用户:juannayuan
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
聚类算法是将数据分类到不同的类或者簇,在商业上聚类可以帮助市场分析人员从消费者数据库中区分出不同的消费群体中,同一群体内的用户有相同的访问行为和爱好,聚类算法主要包括划分方法像K-means算法、层次方法、基于密度的方法等等。传统的聚类算法已经能够成功的解决低维数据的聚类问题,但是随着大数据时代的来临,数据不仅数据量大,而且数据类型繁多,要在这些数据的基础上进行聚类分析难度增加,其中借助分布式框架可以在算法的复杂度和效率上有很大改善和提高。2008年Hadoop分布式计算框架使得数据挖掘算法可以迁移到分布式平台上,MapReduce编程框架的高可靠性和可扩展性使得挖掘算法可以处理大量数据。web日志挖掘通过对日志的分析可以获取用户的行为信息,从而通过web系统的性能,为网站架构提供指导,同时为用户定制个性化网站服务。随着海量web日志的产生,传统的web日志分析方法已经捉襟见肘,对web日志挖掘需要借助分布式框架来对海量数据进行处理。本文借助Hadoop分布式框架,通过实现基于MapReduce算法的聚类算法对web日志进行处理以挖掘用户的访问行为信息,主要做了以下几个方面的工作:1 设计Hbase当中web日志存储格式:通过对网络日志挖掘研究发现,不同的网络日志其格式各有不同,并且网络日志存储也比较复杂,配置实现了网络日志收集系统Flume可以直接从日志文件,关系型数据库等中收集预处理日志信息到HDFS和Hbase分布式数据库当中,设计了在Hbase数据库当中web日志的存储格式。2基于MapReduce对web日志分析:MapReduce对于日志信息的处理使程序可以在分布式环境下同时处理数据量非常大的数据,通过MapReduce程序分析网站用户的行为模式,为网站的设计架构提供指导。3基于MapReduce的聚类算法:通过对K-means聚类算法的分布式实现的研究,实现了基于MapReduce的分布式聚类算法,并且在此基础上对该算法需要输入的初始聚类数k进行改进,通过最小最大算法选择算法能够达到最优聚类效果的初始聚类簇数k,避免了用户数据量大无经验值参考情况下对聚类数k的盲目猜测。本文在以上研究的基础上用NASA网站一个月的访问日志信息作为日志数据进行了实验,实验证明了MapReduce算法对于日志分析的可行性以及对聚类算法的分布式实现的有效性。
其他文献
<正>《丑小鸭》是一篇什么课文?是一篇童话,是安徒生创作的一篇经典童话,是一篇带有自传性质的美丽童话,是一篇用了多种手法写"人物"之丑的童话,是一篇反复写"人物"经受痛苦
<正>思想解放要彻底解放思想,转变观念,对改革开放的重要意义,可用一句话概括:没有思想的解放和观念的转变,就不可能有扭转中国历史进程的改革开放大业。只有彻底的解放思想,
研究2005-2009年全国综合医院、中医医院、专科医院的发展。总体三类医院发展呈正态发展。中国医疗资源仍集中在综合医院。三类医院应加强运用外部资金能力,存在医疗服务质量
研究2010年全国20家专科医院效益分析,各专科医院在各自领域里发挥着社会效益,应关注大众精神卫生,重视职业病防护,切断麻风病传染。控制公立医院的成本费用、提升管理水平,
本文通过分析企业客户服务岗位现状及企业对客户服务类人才需求,提出了以企业实际岗位为出发点、以工作过程为导向、以岗位职业能力为主线的客户专业人才培养方案,并结合全国
工程造价关系着多方的经济利益,当下的建筑行业的主要研讨的话题就是建筑工程造价的策略。相对于国外来说我国的工程造价管理起步稍微晚,建筑工程造价还有很多的不足之处需要
介绍了沉降观测对保证建筑物的正常使用寿命和建筑物的安全性做出了监测,并为以后的勘察设计施工提供可靠的资料及相应的沉降参数,随着社会的发展建筑物沉降观测的必要性和重
蒲菜是一种水生草本植物,其嫩茎不仅脆嫩爽口,风味独特,而且富含膳食纤维、碳水化合物、维生素和钙、磷等多种矿物质,是当今生活中的一种良好的膳食原料,但是该原料很少被人们开发
研究2005-2009年全国肿瘤、妇产(科)和传染病三类专科医院,对比发现三类医院在规模、医疗水平上均稳步前进,各项业务指标均向正向发展。肿瘤医院向800张病床规模扩容以满足社
任何水利水电工程的建设,特别是大、中型水利水电枢纽工程的兴建都离不开工程地质勘探,其中就包含着对建址地区地层岩性的分析。文章概述了岩石力学的涵义,岩石的物理性质,特