基于网格和密度的投影聚类算法的研究

来源 :云南大学 | 被引量 : 0次 | 上传用户:hl830320
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
数据挖掘是帮助人们在海量数据中发现信息和知识的工具。近年来数据挖掘技术成了商业智能的核心技术,被广泛应用到了诸多领域,引起了学术界极大的关注。聚类分析是数据挖掘中的一个重要研究领域,它从数据库中寻找数据间的相似性,从而优化大规模数据库的查询和发现数据中隐含的有用信息或知识。 普通的聚类算法无法有效地在高维空间上对数据进行聚类。投影聚类的出现带来了在高维空间上进行聚类分析的可行方法。一个投影聚类就是一个子空间上的数据集,聚类的成员投影在子空间每个属性上一个很小的范围内,而在子空间以外的属性上的投影则是均匀分布的。现有的多数投影聚类算法依赖于很难事先被用户确定的输入参数,或者很难找到相关维数很少的投影聚类。在本论文中,我们提出一种基于网格和密度的投影聚类算法,该算法在对输入参数很少依赖的情况下有效的发现投影聚类。相对于现有的很多投影聚类方法,我们的算法能够发现相关维很少的投影聚类。本文通过实验展示出算法的几个优点:(1)算法的聚类结果对输入参数的变化不敏感,且输入参数宜于确定(2)能够有效的在高维空间上发现较低维的子空间上的投影聚类;(3)对于数据空间的维度和规模的变化,算法具有较高的稳定性。
其他文献
数据仓库作为支持决策制定过程的重要手段,近几年来得到了迅速发展,并已经成功应用到制造业、零售业、金融服务、电信、运输等多个行业。随着数据仓库的深入应用,数据质量问题成
贝叶斯网(Bayesian Networks,BN)是用来表示不确定变量集合联合分布的图形模式,有清晰直观、较为符合人们思维方式的特点。目前,贝叶斯网已经成为AI领域的研究热点。当使用贝叶
随着互联网和电子商务的迅猛发展,互联网上的多媒体信息急剧膨胀,数字化多媒体产品可通过下载的方式从网上购买,数字作品的拷贝、修改非常容易,且可以做到与原作完全相同。如何有
本文研究了使用不同蕴含算子和不同关系合成算子下的扩展的CRI模糊推理算法的输出模糊集采用真值递延法清晰化方法时的的应用效果。 第一章首先概要介绍模糊推理的发展过
随着Web2.0技术的成熟,Blog作为Web2.0的重要应用,以其个性化的信息发布平台、多元化的内容载体等特点,吸引着越来越多的网络用户参与其中。撰写和浏览Blog已经成为网络文化新的
学位
随着全球信息化的发展,信息量按指数增长,出现了大量以数据流为承载形式的信息,比如通信领域中的电话记录数据流、Web上的用户点击数据流、网络监测中的数据包流、各类传感器网
利用优化算法进行天线的自动设计是现代天线研究的一个重要趋势。而演化计算的出现使人们得以借助其强大的优化能力得到所要求的理想结果。优化后所得到的天线形式往往会出乎
SAN是一种主要的网络存储体系结构,其性能深受网络连接技术和网络存储协议的影响.近年来出现的网络连接技术InfiniBand(IB)支持了高带宽、低延迟的RDMA传输方式,而网络存储协
为了适应网络发展的需求,IETF提出了IPv6协议和相关标准,并将其定义为IPv4的替代协议和下一代互联网的核心协议。从出现至今,IPv6协议簇和IPv4向IPv6的过渡技术一直是网络和通信
太阳活动是太阳发射出的太阳辐射在总量上的变化,其组成具有周期性的变化特性,主要活动形式有太阳黑子、光斑、谱斑、耀斑、日珥和日冕瞬变等。剧烈太阳活动释放出的高能太阳