基于hadoop的聚类算法并行化分析及应用研究

来源 :电子科技大学 | 被引量 : 0次 | 上传用户:wdtt111
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
伴随着计算机技术的迅猛发展以及互联网的快速普及,人们所接触的数据量(包括有结构和无结构的文本数据)呈现爆炸式增长。当前,如何有效快速地从海量数据中挖掘出有价值的信息具有重要的意义。聚类分析是进行数据挖掘的核心技术之一。传统单机的聚类算法无论从效率上,还是从计算复杂度上都已无法满足海量信息的处理需要,云计算技术的发展为聚类分析提供了新的研究方向。Hadoop,作为Apache下的开源的项目,是一个用于构建云平台的分布式的计算框架。在 Hadoop平台上,采用HDFS(分布式文件系统)存储数据,采用MapReduce编程模式来实现对海量数据的并行化处理。根据传统聚类算法本身的特点,并且结合MapReduce的编程模式,使得开发人员不需过多了解并行化的具体通信实现,就可以实现聚类算法的快速并行化,高效而且容易实现。本文对传统的各种聚类算法进行了比较,针对传统的K-means算法在初始聚类中心选择的随机性以及聚类结果的局部最优性进行了适当的改进,并将改进结果结合Hadoop框架进一步应用到实际项目中的相关领域,而且进行了深入的研究。结果表明,这些改进使得算法在执行效率和结果的精确性方面都有明显提高。  本研究主要内容包括:⑴研究了MapReduce编程模型,分析了传统K-means算法以及Canopy算法的优缺点,提出了基于canopy的二次聚类算法(CTK)的思想,并给出了该算法在Hadoop上的并行设计框架,描述了其具体实现。⑵分析了最大最小距离算法,提出了基于最大最小距离原理的K-means聚类算法(MMKMEANS)的思想。结合MapReduce编程模型,实现了该算法在Hadoop平台上的并行化。⑶分析了聚类应用于热点生成的整体流程。研究了使用nutch采集网页信息的策略,以及解析后的网页内容表示成文本向量的并行化实现过程,并以此提供上述算法的实验数据,并且还给出了聚类用于热点生成的并行化实现。⑷通过实验结果验证了上述算法在文本聚类中的聚类质量、查准率、查全率以及并行化的加速比等方面的优越性。
其他文献
中国铁路采用先进化的管理手段,经常对员工培训、测评以提高员工能力以及公司的效益。中国铁路某车务段在科技日益发达的今天,采用了车务段测评系统对员工进行培训测评以提高
随着通信技术和网络技术的飞速发展,目前的IPv4协议面临着一些难以解决的问题,如地址短缺、缺乏服务质量控制和安全性差等。为了应对这一挑战,IETF组织提出了IPv6,IPv6继承了
远程镜像又叫远程复制,是容灾备份的核心技术,同时也是保持远程数据同步和实现灾难恢复的基础。它通过网络将物理位置上分离的存储设备相连接,在远程维护数据镜像,一旦灾难发生时
近些年来,J2ME(Java 2 Micro Edition)作为一种用于移动应用的嵌入式语言得到了人们的广泛关注。J2ME提供了一种高度优化的Java运行环境,将Java语言的平台无关性推广到嵌入式
传统的无线传感器网络中,中间节点只对数据包进行转发,而结合了网络编码后,中间节点会对收到的数据包先进行编码后再进行转发。结合了网络编码的传感器网络对数据包的传输成
学位
近年来,自然景物的模拟一直是计算机图形学领域最具挑战的问题之一,作为自然景物之一的海洋,约占地球表面总面积的70%,是一个巨大的水体,有着丰富的物质资源,是天然的交通平
Grover量子搜索算法具有优于经典算法的效率和搜索问题广泛适用性,以密码学为基础的信息安全关系到国防和金融安全,开展Grocer搜索算法的相关理论研究意义重大。论文着重研究了
随着经济不断的发展,越来越多的企业已经意识到市场的竞争已经不仅仅存在于产品质量、产品价格等方面,而是开始从产品逐步的转入了以服务为中心的竞争阶段。呼叫中心(Call Ce
无线传感器网络综合了传感器、嵌入式系统和无线通信等技术,是目前国内外研究的热点领域之一。随着无线传感器网络应用的逐渐推广,传感器网络的性能参数测量也就受到了越来越