【摘 要】
:
随着信息化程度的提高,信息的生产越来越快,数据量巨增,如何快速有效地对大规模数据进行聚类分析处理成为数据挖掘领域中的一个研究热点。 并行聚类算法将并行计算方法与
论文部分内容阅读
随着信息化程度的提高,信息的生产越来越快,数据量巨增,如何快速有效地对大规模数据进行聚类分析处理成为数据挖掘领域中的一个研究热点。
并行聚类算法将并行计算方法与聚类算法结合起来,充分利用多台处理器资源,使聚类算法在多个处理器上同时运行,并行的处理数据,大大缩短了聚类算法的执行时间,为大规模数据的聚类分析处理提供了有效地解决办法。利用并行聚类算法来进行数据处理需要构造并行计算环境。商用并行机昂贵的价格使得普通科研机构和实验室难以承受。相比之下,价格低廉、容易构建而又高效的NOW集群系统成为了研究并行聚类算法的首选环境。
针对此种情况,本文围绕NOW集群系统下聚类算法的并行化方法进行了研究,主要内容如下:
详细地描述了聚类分析的方法、基本步骤以及数据预处理过程;讨论和总结了当前主要聚类算法的基本思想和技术。
详细地描述了NOW集群系统下的并行计算环境,提出了NOW集群系统下并行聚类算法设计的一般方法和规则,包括并行策略、通信方法、数据划分方法以及性能评价方法。深入讨论了C-均值聚类算法的并行化方案及其具体实现,对NOW集群系统下聚类算法的并行化方法和规则进行了验证。
深入研究了模糊聚类算法,将C-均值聚类算法与模糊聚类算法结合起来,对普通模糊聚类算法和基于核方法的模糊聚类算法进行了改进,提出了两阶段模糊聚类算法,减少了算法的迭代次数,缩了算法的执行时间,提高了算法的性能。同时,研究并实现了NOW集群环境下的并行两阶段模糊聚类算法。
实验结果表明,NOW集群系统下的并行模糊聚类具有较高的加速比和良好的扩展性,进一步验证了并行聚类算法设计规则和方法的正确性和可行性。
其他文献
句法分析是自然语言处理中的一个基本问题。许多自然语言处理中的任务,比如语义分析、机器翻译、信息抽取等,其完成的好坏依赖于句法分析的准确率。另一方面,话语是人与人之间交
资源空间模型是面向互联网络环境的基于正交分类语义的资源组织模型。它采用多维资源空间的方式组织资源,支持有效的资源管理。本论文的创新点主要包括:
1.提出资源空间模
WinWin项目管理理论提出项目成功必须让所有的涉众达到共赢。如何让涉众达到共赢是需求协商需要解决的问题。实践证明Easywinwin,ARENA,ARENA-M这些基于WinWin的协商工具在获取
基于内容的视频检索技术在过去十几年取得了很大进展,但是由于视频内容底层特征与高层语义之间存在“语义鸿沟”,视频内容无法有效地映射到用户的查询语义。交互式视频检索技术
随着大量数据以XML格式保存,针对XML文档的关键词检索技术已经成为信息检索和数据库等相关领域的研究热点。本文通过研究XML文档树的特点以及杜威ID的相关性质,提出了求解SLCA
真空定向结晶铸造炉是针对特有材料结合特有工艺完成定向结晶一次成型的铸造过程的生产设备。由于是针对特有工艺过程,操作员要在操作台上操作生产过程,包括温度控制时人工整
随着互联网和计算机应用的的迅猛发展,软件的安全问题已经成为计算机系统安全的一个至关重要的问题。如今的软件越来越复杂,不可避免包含着程序漏洞。程序漏洞攻击威胁日益严重
近年来,图形用户接口(GUI)技术广为流行,它在给软件的开发和使用带来巨大方便的同时,也给软件的测试带来了极大的挑战。GUI应用程序通常由大量窗口、按钮、文本框等控件组成,每个
近二十年来,由于三维数据获取设备的发展与复杂拓扑结构的曲面造型日益普及,离散网格曲面逐渐成为一种重要的几何表示和对象建模方法。离散网格的表示、处理和几何造型技术也成
领域构件的接口名称不仅仅只是一个使其唯一的标识符,其中往往蕴含了相关领域中的语义信息。本文假设构件的设计者在对构件接口进行命名时,会尽量包含接口在领域中的语义信息,这