聚类分析算法研究及其在数据密集型计算环境下的实现

来源 :山东理工大学 | 被引量 : 0次 | 上传用户:ni0ni
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
当前,在聚类分析中仍然存在准确性和完备性方面的不足,也没有哪种算法能够同时适用于应用的各个方面且都是有效的。在高性能计算方面,主要面临着由于大数据集(数据密集型计算环境下的数据)而带来的挑战。这些大数据集一般具有海量、高速变化、分布、异构、半结构化或非结构化的特点。对于这样的数据,传统的数据挖掘算法已经不能满足其处理要求,逐渐成为数据处理技术中的瓶颈问题。本文通过对基于熵的模糊聚类算法(EFC)和中心点聚类算法的研究,提出了一种改进的基于熵的中心聚类算法(Improved Entropy-based Central Clustering Algorithm,IECC算法)。该算法首先通过EFC算法得到差异性十分明显的原始数据集的簇心,再以得到的簇心为中心再次进行聚类分析,通过各点到各中心的距离将各点重新分配到以各中心所代表的集合中。改进的算法不仅可以得到紧凑且差异明显的聚类结果,还可以使聚类结果的准确率得到有效提高。为了适应数据密集型计算环境下的数据处理要求,本文又提出一种将改进的基于熵的中心聚类算法(IECC算法)在Hadoop分布式平台上实现的可行性方案。具体的实现主要分为三个阶段即Map、Combine和Reduce阶段,在分节点上主要是Map的过程,该过程只需要得到差异性十分明显的原始数据集的簇心以及相应的离群点,将其看作是该节点上的代表点;再经过Combine阶段,把分节点上得到的簇心和离群点相关信息传到主节点上,通过Combine合并相同簇心;最后,在主节点上执行IECC算法,即对Combine过程处理过的数据执行IECC算法,得出最终聚类结果。由于数据密集型计算的发展和其数据的独特特点,将新提出的算法在数据密集型计算环境下实现,有利于其解决数据密集型计算环境下数据分析和挖掘的问题。
其他文献
目前,所有的电信运营商都面临着三大挑战:如何保持和发展现有的客户关系,如何不断推出新的服务内容,以及如何采用更加灵活的付款方式。为了应对以上挑战,电信运营商同样需要建立一
量子纠缠是量子信息处理中的重要资源,它在许多量子信息处理任务中起着关键的作用,例如:量子隐形传态、量子超密编码、量子密钥分配、量子秘密共享等.刻画纠缠一直是量子信息中
随着网络技术的发展,教学管理网络化已经成为现代教育的一个特征,校园网络己成为学校必备基础。校园网络不仅是学校教学的一个重要的基础设施,而且还是一个重要的信息源泉,校园网
随着科学技术的发展,工业生产中人们对产品精度的要求越来越高,相应的诸如小模数齿轮和光学元件的检测也同样需要达到非常高的精度。伴随精密注塑等技术的出现,工业生产的效
随着移动通信和嵌入式技术的发展,移动终端的功能和增值业务日益丰富,这在很大程度上提高了人们的工作效率和生活质量。但是在为人们带来便利的同时,移动终端的便携性、多样
近年来,随着通信技术不断发展,通过目前覆盖面很广的电力线传输各种数据已经成为了人们关注的焦点。早前的通信技术已经不能满足高性能的传输需求,人们已经把OFDM通信技术列
P2P(peer-to-peer)系统是一个迅速发展的研究领域。P2P系统的应用也已经从传统的文件共享领域逐步扩展到更为广泛的分布式计算领域。传统的P2P不能兼顾系统的扩展性和基于多
随着当今网络时代的到来,互联网已经越来越深入人们的工作和生活,嵌入式系统也正与Internet相结合,网络化成为了嵌入式系统一个新的、不可阻挡的发展趋势。针对嵌入式系统网
随着Web技术的广泛应用,许多企业都迫切要求快速、高效地构建自己的Web业务系统。企业版J2EE是Sun提供的一个标准的企业应用开发平台,它为我们开发企业Web应用提供了丰富的技
为了适应当前网络传输异构化和多媒体终端设备多样化的需要,视频服务需要提供丰富的自适应机制来应对普适多媒体应用的这种挑战,从而覆盖更广泛的应用范围。视频转码技术是实