Hadoop平台下并行聚类算法的研究

来源 :福建师范大学 | 被引量 : 0次 | 上传用户:xbq001
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
聚类算法在数据挖掘技术中起着至关重要的作用,通常用于衡量数据源中不同对象之间的相似性并分析,也可作为数据挖掘中其他算法的预处理步骤。Hadoop平台能够将整个计算任务分配到资源池上的多个节点进行并行化运算,具有高效处理海量数据的能力。研究与Hadoop相结合的聚类算法有利于实现或提升原有算法处理海量数据的能力。本文针对传统K-means算法通过随机选取初始类簇中心点很容易导致聚类效果不佳的缺点,提出了一种基于Hadoop平台下K-means的优化算法,优化重点主要在初始类簇中心点的选择上,其基本思路是遵循“最近最大”原则,基于Mahout数据模型下任意选择一个对象设置为第一个初始类簇中心点,接着设置第二个初始类簇中心点是与第一个初始类簇中心点相距最远的样本,然后再设置第三个初始类簇中心点是与已设置的初始类簇中心点中相距最近的样本中距离值最大的样本点,重复迭代便可以得到一个数量为K值的初始类簇中心点集合,并通过MapReduce编程模型进行并行化分析与实现。其次,针对K-means优化算法也无法准确估算类簇中心点个数K值,又提出了Hadoop平台下基于快速搜索与密度峰值查找的聚类算法(CFSFDPH),CFSFDPH算法以“化整为一”的原则首先将数据集分成多个组,然后基于MapReduce编程模型下对各组独立执行一次CFSFDP算法,从而产生各组的局部聚类结果集并标记各个非聚类中心点的归类属性,再通过结合决策图获取各组聚类结果集中最具代表性的n个局部聚类中心点集,实现Reduce函数对该集合进行CFSFDP聚类,以此得到整个数据集的最终聚类中心点,最后实现Map函数更新所有点的归类属性值。通过集群加速比和聚类结果实验对比表明,当数据量较少时K-means优化算法的效果要优于另外两种算法,当数据量越庞大时则CFSFDPH算法效果最佳。
其他文献
在上一期〈日语咖啡(4)――巧用卡片〉中,我们介绍了如何利用卡片学习外语的"微观三段跳"。既然有"微观",那就有"宏观",那"宏观三段跳"又是什么呢?
本文从动力学的角度对车辆运行作详细的分析。阐述车辆运行过程中各种力和力矩所起的作用及车辆运行过程中功能转换关系的清晰物理图象。
在日语教学中,经常有学生在他动词的用法上出现错误,虽然基本上能够将自己要表达的意思传达给对方,但在语法上出现明显的错误。
目前,我国的教育事业正面临的一次重大改革,这是一场对国家和社会产生重大的影响,并与时代相适应的改革。本文在这种情况下,以历届毕业生情况所得的建议及优良经验收集,作为一种参
<正>~~
期刊
作品梗概「蒔岡まきおか」家是大阪「船場せんば」地区的世家,全盛期是大正时期(1912~1926),现在不做生意了。长女「鶴子つるこ」继承了家业,丈夫是上门女婿,是银行家的儿子,不
本文报道用甘氨酸、甲醛和亚磷酸(或三氯化磷)作主要原料,合成N,N-双-[膦羧甲基]-甘氨酸,对其投料次序作了研究。由于反应原料不同,投料方法不同,改进了“一锅煮”的方法,使产物收率从54
本文按平均随机场理论的思想方法,通过引入一个新的近似建立只考虑Reaction Field平均场理论。讨论了无限力程和有限力程两种情况,计算了相应的临界温度及热力学性质,结果证明了
今年6月6日是第九届“全国爱眼日”。今年“爱眼日”活动的主题是“防治屈光不正及低视力,提高儿童和青少年眼保健水平”。所谓屈光不正是指近视眼、远视眼和散光,低视力是指
期刊
日语界同仁可能有这样的感觉:精通日语的学者不少.擅长翻译的强人则不多。其中的原因,行行各个学校的课程设置或可知晓一二。日前的日语教学,更多的是注重日语能力的提高,在汉语方