大规模科学数据挖掘中密度聚类算法的研究

来源 :电子科技大学 | 被引量 : 0次 | 上传用户:DEWEN222
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
数据挖掘就是从海量数据中提取知识,又被称为数据库中的知识发现。它是一个跨学科的新兴研究领域。聚类分析是其中的一个重要分支,它研究数据间逻辑上或物理上的相互关系,通过一定的规则将数据集划分为在性质上相似的数据点构成的若干个类。本文首先介绍了数据挖掘的基本概念、存在问题及发展方向。其次介绍了聚类分析的基本概念、分类及一些常见的算法思想,并着重讨论了一些经典的聚类算法。基于密度的聚类算法是本文的重点研究对象。研究表明,大多数基于密度的聚类算法需要输入初始参数,参数通常由用户根据经验给出,这往往是困难的。且密度参数通常简单的将聚类分为高低密度两种,无法反映整体数据的分布特点。为了解决此类算法面临的问题,本文提出一种基于密度与网格聚类算法相结合的自适应式聚类算法,它首先对数据进行网格化,然后分析网格的密度分布,从而自适应的得出一系列密度区间,这些区间的划分进而作为聚类的参数。这样的区间划分不再是简单的高低密度分界,而是反映了数据分布的特点。数据挖掘与科学研究的结合是近来新兴的研究课题,在很多方面都有值得研究的地方。大规模科学数据具有数据量大、特征复杂的特点,在对其进行处理时,往往使得理解、分析这些科学数据,并从中获取知识变得十分困难,由此科学数据挖掘势在必行。本文对科学数据挖掘项目及其科学仿真数据进行了介绍,并且将所提出的自适应式网格密度聚类算法应用于科学仿真数据。并对聚类结果进行聚类特征的分析提取,提取的聚类特征表示了数据的整体物理变化过程。在本文的最后对全文内容进行总结,并展望了数据挖掘进一步研究和应用的方向。
其他文献
垃圾邮件的危害越来越大,已经严重危害了人民的生活和工作。针对垃圾邮件的防范研究是当前的一个研究热点,已经出现了许多优秀的垃圾邮件过滤技术和产品。然而,面对众多的垃圾邮
随着互联网的发展,网络上出现了各种各样的应用,例如:网络聊天室、在线论坛等。这些网络应用在丰富人们生活的同时,也给网络的健康发展带来了一些危害。用户在使用这些网络应
本文论述的是基于J2EE的B/S架构的开源数据挖掘系统的构建。本系统采用JSF+ Ajax克服Web架构相对于传统的C/S架构的“无状态性”的缺点,实现无刷新提交表单数据和组建的自定
学位
近年来因特网的发展呈现出网络资源相对稀缺、应用多样化和商业化几大特点。无线/移动通信网与因特网的融合推动了移动环境下多媒体应用的发展,同时,移动环境下的用户要求得到
信息技术加速了数据存储的增长,特别是多媒体数据的急速膨胀。为了解决由于数据量过大而人们无法有效利用的迫切问题,数据挖掘技术应运而生,多媒体数据挖掘是数据挖掘技术与多媒
近年来,视频监控在机场、金融、安全保密等领域得到广泛应用,但是现有系统还存在一些不足。本文提出的应用于视频监控的快速多人脸检测与分割算法,可有效地提高系统的工作效率与
当前,基于Windows环境的考试系统种类繁多,而且功能全面完善,运行平稳可靠。相对来说,在Linux环境下实现Linux上机操作考核的广为人知的考试系统不多,但也并不很难实现。可是
多序列比对是生物信息学中最基本的信息处理方法,而寻求更快更敏感的多序列比对算法一直是生物信息学研究的热点。本文对此进行了深入研究和探讨。本文深入地研究了当今国际
考试作为考核学生掌握所学知识的重要手段,是教学活动中的一个重要环节,如何使考试能适应现代教育的特点,运用计算机技术更好地为教学服务,成为当前各类教育中研究的热点问题