基于高性能计算机并行聚类算法研究

来源 :上海大学 | 被引量 : 0次 | 上传用户:aa4578
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
当今信息化时代,各种以数据形式表达的信息几乎以指数的量级在迅速增长,许多隐含在海量数据中的知识正等待人们去挖掘、去发现.作为数据库研究、开发和应用最活跃的分支,数据挖掘—从大量数据中用非平凡的方法发现有用的知识--有着广泛的应用.但是,数据挖掘面临的是海量数据和极其复杂的运算,而以往的数据挖掘技术主要是基于传统的(串行)计算机系统,尽管人们为了解决运算的时间和空间的复杂性问题花费了大量的精力,却仍然得不到满意的结果.有些数据挖掘方法,即使有并行挖掘的概念,也因缺乏并行运行环境而只能在串行计算机上运行,因而大大降低了挖掘效率.随着网络技术、高性能计算机的发展,对大规模数据的分布式并行处理已成为可能.并行数据挖掘技术的研究成为当前研究热点和今后重点发展的方向,国内外都在进行一些数据挖掘并行算法的研究.上海大学峰值速度达到每秒4500亿次浮点操作的自强2000机群系统为我们开展并行数据挖掘技术的研究提供了良好的基础条件.数据聚类在数据挖掘、模式识别、图象处理和数据压缩等领域有广泛的应用,是数据挖掘的一个重要分支.本文总结了聚类算法的基本模型,选择DBSCAN算法,提出几种适合在高性能机群系统上运行的并行DBSCAN算法,通过实验和比较,分析几种并行DBSCAN算法的优缺点.这些算法都收集在基于自强2000机群系统并行数据挖掘系统中,该系统除了运行算法之外,还实现了数据清洗、数据划分及数据发送(发送到各个处理机上)、参数选择及聚类质量评估等功能.具体而言,本文的工作如下:1)分析基本的聚类算法,对它们的可并行性进行讨论,选择一种聚类性能好,适合并行的聚类算法——DBSCAN算法;2)在串行DBSCAN算法基础上提出三种并行DBSCAN算法,一种是建立在全局数据库上的全局并行DBSCAN算法——PDBSCAN,其他两个是基于数据分区的并行DBSCAN算法——DPDBSCAN和OPDBSCAN;3)分析比较了三种算法的优缺点;4)建立聚类性能评估模型,向用户反馈聚类性能信息,介绍如何指导用户选择相关参数;5)介绍基于机群系统并行数据挖掘系统的结构及功能,并在该系统上实现一个并行聚类算法应用实例.
其他文献
主动数据库系统一般可认为是由数据库和建立在数据库上的主动规则集构成。主动数据库规则的形式一般为ECA规则。但是,由于规则集中的规则可能相互作用、相互影响,从而使规则
关联规则是数据挖掘的主要模式之一,用于发现满足给定支持度和置信度的属性之间的依赖关系。目前已经存在很多挖掘布尔型关联规则的经典算法及改进算法,由于布尔型属性值固有
作为数据仓库前端工具,联机分析处理(OLAP)是近十年迅速发展起来的一种高级决策支持工具。使用OLAP工具,人们可以深入分析和研究数据,发现趋势,看到异常情况,并得到重要细节以更好
`当今随着经济环境全球化,企业面临着越来越激烈的竞争。大多数有竞争力的企业都把对企业信息化作为他们成功的重要因素。随着信息产业的迅猛发展,新的信息技术层出不穷,对新
该文提出了基于5/3运动补偿时间提升滤波的完全可伸缩视频编码方案.5/3提升滤波能更充分的利用帧间相关性,计算简便,并具有可逆性,便于实现亚象素精度的运动补偿.我们根据5/3
在XML成为互联网上数据表示与数据交换的标准后,XML文档大量涌现,XML的有效管理受到广泛关注。本课题结合国产数据库管理系统的研制需要,开展了XML文档的存储与检索研究。针
本文分析了MPEG第三层标准算法,并在此基础上重点研究了对标准算法中的时频变换和心理声学模型两部分的改进,在时频变换部分,引入小波包变换实现频带的划分,划分后的频带更接近临
随着计算机硬件和计算机图形学的飞速发展,人们对动画、游戏等三维形体真实感的要求也不断提高.与传统的连续型曲面重建造型相比,离散细分方法显然更加适合于计算机的处理,所
近年来,计算机网络技术特别是宽带技术的发展给人们的生活带来了巨大的冲击.可以预见,在不久的将来,Internet将成为人与人之间最主要的交流方式.而流媒体技术的出现与发展将
随着Internet的飞速发展,能够更有效地利用网络带宽资源的IP组播技术研究与应用成为当前科研领域的一个热点.在日益强调服务质量的今天,网络传输中断、网络拥塞以及组播机制