Hadoop平台下基于密度的K-Medoids聚类算法的研究与实现

来源 :南昌大学 | 被引量 : 0次 | 上传用户:intercsw
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网技术的高速发展,人们所面临的数据几乎呈爆炸性的增长,而传统的数据挖掘算法在处理大数据时已不能满足人们对时间性能的要求,那么如何能快速的从大量数据中提取有效的信息呢?针对这一问题,本文基于一种经典的聚类算法——K-Medoids,结合目前较为流行的Hadoop平台,提出了一种基于密度的K-Medoids并行算法。本文的主要工作主要有以下两点:1.针对传统的K-Medoids聚类算法存在的不足之处——聚类结果会随随机选择的k个初始聚类中心的不同波动较大,本文提出了一种基于密度的K-Medoids算法。算法首先对初始数据进行一次基于密度的聚类,然后选择k个密度较大的类簇的中心作为K-Medoids聚类的初始聚类中心。实验证明,本文算法要比传统的K-Medoids算法的聚类精度要高。2.为了解决算法在处理海量数据时产生的延时问题,结合了目前较为流行的Hadoop平台,将提出的算法Map Reduce化。该过程的关键工作主要有两点:其一是将算法分解为多个Job并确定每个Job的Map阶段和Reduce阶段的任务;其二是根据需要设计key值和value值。通过实验证明,Hadoop集群节点越多且数据量越大,Hadoop集群的处理时间差也就越大。最后对全文的研究工作进行了总结和概述,阐述了研究内容的不足之处,进而确定下一步待研究的工作。
其他文献
随着计算机系统逐渐被应用到航天、军事、工业等高可信性领域,人们对计算机系统的可信性要求越来越高,可信计算机系统设计与实现技术已成为人们重要的研究课题。安全性做为可
无线传感器网络(WSN)在解决真实世界的问题时有非常重要的意义,在近年来吸引了越来越多的研究兴趣。传感器网络最重要的应用之一就是对事件的监测。大部分现实世界中的事件都
多核并行计算已经成为当今计算机新的领域,而多核之间如何进行通信也已经成为了当今研究的重点内容,尤其是嵌入式系统中在多处理器之间选择合适的通信机制不仅能够提高并行化的
串匹配算法是计算机科学领域中一个重要的基础研究领域。在文本处理、数据压缩、搜索引擎、生物计算,以及网络安全等大量的应用中,都需要进行串匹配。本文主要讨论精确模式串
信息时代的到来带来了大数据时代的契机,同时也带来了信息的爆炸式增长。多元化的知识信息给人们提供便利的同时,也带来有效获取真正感兴趣知识的困难,由此知识的个性化服务
秘密共享是门限密码学的基础。门限秘密共享的主要思想是将一个秘密分割成若干子秘密分散存储于多个成员,当需要重构秘密或使用它进行某种密码运算时,必须多于特定数量(门限
目前嵌入式系统已经广泛应用在航天、航空、工业机器人、系统控制等领域,然而,海量数据处理对嵌入式计算系统提出了更高的要求。为了开发更高性能的嵌入式系统,并行计算成为提高
当今数字化时代,对于企业的运作发展,信息技术扮演着越来越重要的角色,软件系统的破坏和数据资料的损毁将对企业造成难以估量的损失。而很多灾难事件又无法预计和避免,如雪灾、恐
随着无线通信技术和多媒体技术的飞速发展和日益成熟,无线分布式环境下视频应用的需求变得日益迫切。具有高复杂度编码器的传统混合编码技术已经不再适用于这种应用环境,迫切
密文数据库检索方法是数据库加密技术研究的难点和重点。目前,对密文数据库检索方法的研究还处于起步阶段,各方面的技术还不成熟,存在一定的缺陷。本文对密文数据库检索方法