一种聚类算法的并行化研究

来源 :哈尔滨工程大学 | 被引量 : 0次 | 上传用户:bjl123456
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着计算机技术的飞速发展以及网络的普及,人们在应用过程中产生和收集的信息在规模、范围和深度等方面不断扩大。这些海量的数据在组成和功能之间存在着丰富和复杂的信息,因此人们希望能够对其进行更高层次的分析。K均值算法是基于原型的聚类技术,具有简单、快速和有效处理大规模数据等诸多优点,是应用最广泛的聚类方法之一。缺点是存在过度依赖初始条件,如初始聚类中心的选取等都会影响聚类结果,制约了其应用范围。二分K均值聚类算法是K均值算法的变种算法,通过使用基本K均值算法能够产生划分聚类算法或层次聚类算法,具有不受初始质心选择影响的优点。聚类实际应用处理对象多为海量数据和高维数据,具有很高的时间和空间复杂性。在处理海量TB级文本数据时,利用多台主机组成的群集系统,具有强大的并行计算能力。基于群集环境下的二分K均值聚类算法并行化研究,可以极大的提高工作效率,具有一定的现实应用意义。本文针对二分K均值聚类算法在二分聚类过程中初始质心选取速度方面存在的不足,提出了以极大距离点作为二分聚类初始质心的思想,较好的改善了算法的运行速度。深入研究和分析了如何在群集系统中进行快速聚类,根据二分K均值聚类算法的特性,采用数据并行的思想和均匀划分策略,对算法进行了并行化。最后的实验结果表明,改进后的算法获得了理想的加速比,提高了算法的使用效率。
其他文献
搜索引擎旨在帮助用户有效的获取信息。现有的搜索引擎,存在精度不高,查全率偏低的缺点,迫切需要新的搜索模型的出现,语义搜索就是尝试之一。   鉴于已有语义搜索模型存在的问
专家系统是人工智能中一个正在发展着的研究领域,虽然目前已经有许多专家系统相继问世,并在各自不同的领域中发挥着重要作用,取得了巨大的经济效益及社会效益,但无论是在理论
随着信息技术、计算技术的发展,计算模式正发生着深刻的变革,已经逐渐从传统分布式移动计算发展到普适计算模式。普适计算的本质特征是融合物理空间和信息空间,为人提供透明
随着互联网技术的飞速发展,网络应用十分广泛,已经渗透到了各行各业。网络在快捷、方便的带来大量信息的同时,也带来了诸多安全问题。其中木马技术由于远程控制性、隐蔽性等
随着计算机与信息技术的普及和大容量存储技术的发展,人们在日常事务处理和科学研究中逐渐积累了大量宝贵数据,这些数据背后蕴藏着对决策有重要参考价值的消息。如何从这些历
随着我国金融行业的蓬勃发展,银行对于金融自助设备的要求越来越高。为了使金融自助设备更具人性化和灵活性,并避免依赖一个厂商生产的产品,各银行纷纷按照自己的业务需要或
无线传感器网络是利用部署在监测区域内大量的传感器节点组成的一个多跳自组织的网络,在国防军事、工业控制、城市管理、医疗卫生、环境检测、抢险救灾等领域有潜在的应用。
随着分布式环境下共享资源计算和协同服务的需求逐渐增多,这要求软件系统的开发、部署、运行、维护在日渐开放、动态、难控的网络环境中。因Agent具有反应性、自治性、社会性
对于当前的海量数据分析或处理,数据通常存储在大规模集群的分布式文件系统(如GFS、HDFS)上。这些文件系统提供了对数据的便捷管理、高效访问以及容错性和扩展性。基于GFS和HD
针对社区发现算法的研究已经成为社会学、计算机科学、生态学和经济学等许多领域研究中最重要的课题之一。随着近年来互联网高速发展和移动终端的普及应用,使得复杂网络的种