论文部分内容阅读
数据挖掘根据大量事实的相关性发现描述数据的通用规则集,同时也通过训练和自学习发现隐藏在数据中的新模式。数据挖掘技术有很多种类,其中聚类分析是指依据数据彼此之间的相似性将其分类到不同的类或簇的过程,在同一个簇中的对象彼此之间非常相似,而不同簇间的对象之间具有较高的相异性。随着现代科技的飞速发展,各种业务应用带来了数据全新的变革,数据量爆炸式的增长使得传统的数据挖掘算法无法再胜任如今的数据挖掘任务。新兴的计算模式云计算是分布处理、并行处理和网格计算的综合发展,它以大量的普通硬件构建计算机集群,将计算任务分布在集群上并行执行以实现强大的计算能力。它从分布式存储和分布式计算两个角度带来了对数据全新的处理方式,是如今处理大数据集的有效方法。本文基于云计算技术,以数据挖掘的聚类分析为切入点,寻求应对大数据集聚类挖掘的新方法。针对经典聚类挖掘K-medoids算法的不足,提出了其改进算法:基于统计中心点密度的SCDK-medoids算法和基于相对距离预聚类的RDPK-medoids算法。并将SCDK-medoids算法与网格划分思想相结合实现真正的并行化设计,同时也对RDPK-medoids算法实现中最耗时的部分做了基于Hadoop的并行设计,最终形成了基于云计算的面向大数据集的聚类挖掘算法的新的实现方案。为了验证所提出算法的性能,对原K-medoids算法进行了基于Hadoop的并行化设计,并设计了Hadoop完全分布状态下的仿真实验。实验结果表明,并行化SCDK-medoids算法和并行化RDPK-medoids算法表现出较好的聚类精度和运行速度,能够适用于大数据集的聚类挖掘。本文还将并行化SCDK-medoids算法应用于出租车推送服务中,通过实际应用说明所提出的算法在社会网络社区划分及推送服务中的可用性。