基于Hadoop的K-Medoids聚类算法实现与优化

被引量 : 0次 | 上传用户：zexuan123

【摘要】

：

随着信息化社会的快速发展,累积的数据急速攀升,如何从海量数据中快速地挖掘出有效信息成为应用上的难题。聚类分析是数据挖掘常用的方法,但随着所涉及的数据规模越来越大,许

【作者】

：

蒋耀斌

【发表日期】

：

2014年期

【关键词】

：

Clustering Analysis K-Medoids Hadoop HBase Parallel Compuring BigData

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

随着信息化社会的快速发展,累积的数据急速攀升,如何从海量数据中快速地挖掘出有效信息成为应用上的难题。聚类分析是数据挖掘常用的方法,但随着所涉及的数据规模越来越大,许多常规算法越来越力不从心。K-均值聚类(K-Means)和K-中心点聚类(K-Medoids)算法是两种简单的基于划分的聚类算法,现实场景中最常用的基于其基本思路的改进算法。PAM(Partitioning AroundMedoids,基于中心点的分类)是最先提出的K-中心点聚类算法,随后的CLARA (Clustering LARge Applications,大量应用数据聚类)和CLARANS(Clustering Large Application based upon RANdomized Search,基于随机搜索的大量应用数据聚类)通过减少每次计算样本量对其做了改进,也有通过预先分析获得初始点或使用空间距离矩阵等方式对其改进。但是,对于当前超大数据而言,这些改进后的算法在时间复杂度和处理能力上仍然不足。在并行计算平台上进行数据挖掘计算己逐渐成为新的研究热,Hadoop云平台的提出与运用为解决这一瓶颈提供了新的途径。基于H[adoop云平台的数据挖掘分析项目Mahout实现了并行的K-Means等众多数据分析经典算法,并得到了业界的广泛认可和应用,但Mahout未实现K-Medoids算法。本文结合K-Medoids算法的特点与Hadoop平台的优势,借鉴Mahout开源项目中已经实现的并行K-Means聚类算法的实现方案,提出了一种基于MapReduce的并行聚类算法HK-Medoids,大幅提升传统聚类算法的运算速率。另外,为了进一步提高聚类效率,本文从完善MapReduce调度、采取抽样方法、预设聚类初值中心点和优化数据源等方面对HK-Medoids作了进一步的优化。为了验证HK-Medoids算法及其优化的有效性,我们做了大量的实验,比较和分析了算法的优化率和加速比等指标,从而验证了HK-Medoids算法的的有效性。

其他文献

林业案件技术鉴定分析

对当前林业案件技术鉴定现状、问题进行分析,制定相应对策,统一规范各类林业案件的技术鉴定方法及标准,对科学合理公正进行林业案件技术鉴定具有现实指导意义。

期刊

林业案件技术鉴定鉴定资质鉴定标准

中老年人水分摄入及其它膳食因素与常见慢性病关系研究

目的通过调查中老年人群的膳食行为、饮水特点和身体营养状况,分析中老年人水分摄入量差异与常见慢性病之间的关系。有针对性地指导中老年人合理调整饮水方式及饮水量,为制定

学位

饮水水分摄入知识膳食影响因素

黄庭坚贬谪心态研究

文本将黄庭坚置于北宋党争的政治背景中,以其在政治受挫之后的心态为关注对象,探究黄庭坚在黔州、戎州、宜州等地所表现出来的复杂心态及其自我调适和超越的方式。论文主要分

学位

贬谪心态矛盾调适超越

西部地区法律援助问题研究

摘要：法律援助事业不是可要可不要、可搞可不搞的问题,是社会民主法治建设所必需的。2013年结束的十八届三中全会《决定》在推进我国法治建设的论述中明确提出,“完善人权司法

学位

西部地区法律援助改革

浅谈加强企业存货管理的措施

存货是企业一项重要的流动资产,包括库存商品、原材料、低值易耗品、周转材料、在产品、产成品等,加强存货的管理,对提高企业管理水平,加快资金周转,降低生产成本,增加企业经

期刊

企业存货管理措施

23G微创玻璃体切割手术与常规20G玻璃体切割手术治疗增殖性糖尿病视网膜病变的临床对比研究

目的：对比研究23G微创玻璃体切割术（经结膜免缝合玻璃体切割术）与常规20G玻璃体切割术对增殖性糖尿病视网膜病变（Proliferative diabeticretinopathy,PDR）患者治疗的临床疗效，探讨

学位

23G微创玻璃体切割术常规20G玻璃体手术增殖性糖尿病视网膜病变对比研究

基于基质辅助激光解析电离—飞行时间质谱研究耐药性细菌和霍乱弧菌的分型

目的：探索应用基质辅助激光解析电离飞行时间质谱(MALDI-TOF MS)技术来区分非耐药菌株与其对应耐药株蛋白指纹图谱的差异,摸索影响耐药株蛋白图谱的因素,为将来建立耐药性细菌

学位

基质辅助激光解析电离飞行时间质谱耐药性细菌蛋白指纹图谱霍乱弧菌分型

反相高效液相法测定复方胆通胶囊中大黄酚及大黄素含量

目的建立反相高效液相细孔柱法,测定复方胆通胶囊中大黄素和大黄酚含量。方法色谱柱为ODS反相细孔柱(2.1 mm×250 mm,5μm),流动相为乙腈∶0.1%磷酸(v/v)=85∶15,流速为0.4 m

期刊

HPLC大黄素大黄酚细孔柱

埃索美拉唑的临床应用

埃索美拉唑(Eso)是一种新型质子泵抑制剂,由于Eso的肝脏首过代谢较奥美拉唑(Ome)低,故比Ome全身生物利用度高。近年来,随着Eso的临床应用,其在胃食管反流性疾病、消化性溃疡

期刊

埃索美拉唑临床应用

军队财务监督机制的几点思考

军队财务监督工作是保证军费合理有效运行的关键步骤,是确保军事财经政策顺利实施的充要条件。高效的监督机制则是军队财务监督工作顺利开展的重要前提和保证。因此,军队财务

期刊

财务监督军队管理

基于Hadoop的K-Medoids聚类算法实现与优化

与本文相关的学术论文