基于Hadoop的K-Medoids聚类算法实现与优化

被引量 : 0次 | 上传用户:zexuan123
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着信息化社会的快速发展,累积的数据急速攀升,如何从海量数据中快速地挖掘出有效信息成为应用上的难题。聚类分析是数据挖掘常用的方法,但随着所涉及的数据规模越来越大,许多常规算法越来越力不从心。K-均值聚类(K-Means)和K-中心点聚类(K-Medoids)算法是两种简单的基于划分的聚类算法,现实场景中最常用的基于其基本思路的改进算法。PAM(Partitioning AroundMedoids,基于中心点的分类)是最先提出的K-中心点聚类算法,随后的CLARA (Clustering LARge Applications,大量应用数据聚类)和CLARANS(Clustering Large Application based upon RANdomized Search,基于随机搜索的大量应用数据聚类)通过减少每次计算样本量对其做了改进,也有通过预先分析获得初始点或使用空间距离矩阵等方式对其改进。但是,对于当前超大数据而言,这些改进后的算法在时间复杂度和处理能力上仍然不足。在并行计算平台上进行数据挖掘计算己逐渐成为新的研究热,Hadoop云平台的提出与运用为解决这一瓶颈提供了新的途径。基于H[adoop云平台的数据挖掘分析项目Mahout实现了并行的K-Means等众多数据分析经典算法,并得到了业界的广泛认可和应用,但Mahout未实现K-Medoids算法。本文结合K-Medoids算法的特点与Hadoop平台的优势,借鉴Mahout开源项目中已经实现的并行K-Means聚类算法的实现方案,提出了一种基于MapReduce的并行聚类算法HK-Medoids,大幅提升传统聚类算法的运算速率。另外,为了进一步提高聚类效率,本文从完善MapReduce调度、采取抽样方法、预设聚类初值中心点和优化数据源等方面对HK-Medoids作了进一步的优化。为了验证HK-Medoids算法及其优化的有效性,我们做了大量的实验,比较和分析了算法的优化率和加速比等指标,从而验证了HK-Medoids算法的的有效性。
其他文献
对当前林业案件技术鉴定现状、问题进行分析,制定相应对策,统一规范各类林业案件的技术鉴定方法及标准,对科学合理公正进行林业案件技术鉴定具有现实指导意义。
目的通过调查中老年人群的膳食行为、饮水特点和身体营养状况,分析中老年人水分摄入量差异与常见慢性病之间的关系。有针对性地指导中老年人合理调整饮水方式及饮水量,为制定
文本将黄庭坚置于北宋党争的政治背景中,以其在政治受挫之后的心态为关注对象,探究黄庭坚在黔州、戎州、宜州等地所表现出来的复杂心态及其自我调适和超越的方式。论文主要分
摘要:法律援助事业不是可要可不要、可搞可不搞的问题,是社会民主法治建设所必需的。2013年结束的十八届三中全会《决定》在推进我国法治建设的论述中明确提出,“完善人权司法
存货是企业一项重要的流动资产,包括库存商品、原材料、低值易耗品、周转材料、在产品、产成品等,加强存货的管理,对提高企业管理水平,加快资金周转,降低生产成本,增加企业经
目的:对比研究23G微创玻璃体切割术(经结膜免缝合玻璃体切割术)与常规20G玻璃体切割术对增殖性糖尿病视网膜病变(Proliferative diabeticretinopathy,PDR)患者治疗的临床疗效,探讨
目的:探索应用基质辅助激光解析电离飞行时间质谱(MALDI-TOF MS)技术来区分非耐药菌株与其对应耐药株蛋白指纹图谱的差异,摸索影响耐药株蛋白图谱的因素,为将来建立耐药性细菌
目的建立反相高效液相细孔柱法,测定复方胆通胶囊中大黄素和大黄酚含量。方法色谱柱为ODS反相细孔柱(2.1 mm×250 mm,5μm),流动相为乙腈∶0.1%磷酸(v/v)=85∶15,流速为0.4 m
埃索美拉唑(Eso)是一种新型质子泵抑制剂,由于Eso的肝脏首过代谢较奥美拉唑(Ome)低,故比Ome全身生物利用度高。近年来,随着Eso的临床应用,其在胃食管反流性疾病、消化性溃疡
军队财务监督工作是保证军费合理有效运行的关键步骤,是确保军事财经政策顺利实施的充要条件。高效的监督机制则是军队财务监督工作顺利开展的重要前提和保证。因此,军队财务