基于Hadoop平台的K-Medoids聚类算法的研究与优化

来源 :西安电子科技大学 | 被引量 : 0次 | 上传用户:sycamorelee
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网技术的飞速发展,微博、微信、社交网络等交互式应用的涌现,商业产生的数据呈爆炸式增长。商家急需从海量的数据中挖掘潜在的有用的信息,从而进行研究与决策。面对如此庞大的数据,传统的数据分析工具已经不再适用。聚类分析是数据挖掘的重要技术之一,它是根据某种距离度量方法,将对象集合分成多个类簇的过程,作为一种非监督学习方法,其最初的类别是不确定的。传统单机下的聚类算法,无论是时间复杂度,还是运行效率都无法满足大数据处理的要求。然而,云计算的发展为大数据的聚类分析提供了新的研究方向。本文基于Hadoop云计算平台,通过对K-Medoids聚类算法进行优化与实现,能够对大数据进行准确、高效的聚类分析。本文主要工作如下:(1)研究了传统的K-Medoids聚类算法,并针对其需要指定聚类数目和初始中心点的缺点,利用Canopy聚类算法对它进行优化,进而提出了Canopy-K-Medoids聚类算法;(2)通过对Canopy算法进行分析,发现其聚类中心点和区域半径T1、T2的选择具有随机性,所以用最大最小距离算法对Canopy-K-Medoids算法进行优化,从而又形成一种新算法,将其称为HCK-Medoids聚类算法;(3)对上述三种算法均设计了基于MapReduce的并行化算法,并部署到Hadoop平台上进行测试,分别在聚类准确性、加速比等方面进行了比较,从而验证了的优化后的算法更能高效和准确地处理海量数据;将HCK-Medoids算法应用到客户细分中,通过与K-Means算法进行比较,验证了HCK-Medoids算法能够更加准确地将客户进行细分。
其他文献
本文的课题研究来源于一个空地通信系统项目,由于信道的莱斯特性和通信方式的特殊性(短时跳频突发通信),决定了系统必须具备对抗多径的能力而又不宜采用收敛慢的复杂均衡方案
跳频通信具有抗干扰、抗衰落的能力,在军事、民用通信领域中都得到了广泛的应用。跳频同步是跳频通信的关键技术,只有实现了快速精确的同步,才能正确接收跳频信号。同时跳频同步
未来无线通信的发展面临着更高的传输要求,在频谱有限的条件下,需要更高的传输速率和频谱利用率。因此,如何实现更高频谱效率下的信息传输成为了无线通信领域研究的重点。MIM
伴随着近些年卫星导航在各个产业的深入应用,以及无人机向多机协作系统发展的趋势,多无人机协作卫星导航已成为必然的发展轨迹。因此,无人机协作导航的相关抗干扰问题成为了
现代密码学理论和密码技术是信息安全的重要基础。分组密码是密码学的一个重要分支,分组密码的安全性研究成为一个重要的课题。差分密码分析是一种选择明文攻击,通过分析明文
作为下一代静止图像压缩编码的标准,JPEG2000具有良好的性能、码流渐进性及精确码率控制等一系列优点,然而算法比较复杂,处理开销较大,必须要对原有算法进行优化,以便于硬件
随着现代计算机技术和互联网技术的飞速发展,嵌入式系统已成为当前信息产业中最热门的焦点之一,与之相关的各种嵌入式设备也已广泛的融入了人类的生活。而基于ARM的微处理器