基于k-dist图的变密度DBSCAN算法改进研究

来源 :上海财经大学 | 被引量 : 0次 | 上传用户:ming9981
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着数据收集和数据存储技术的快速进步,人们积累海量数据的能力急剧提高。然而,提取有用的信息已经成为当今社会面对的巨大挑战。数据挖掘技术将传统的数据分析方法与处理大量数据的复杂方法相结合,在数据库技术、并行计算、分布式计算等技术的基础上,汇集统计学、人工智能、机器学习和模式识别等领域的知识,从海量数据中发现有价值的信息。随着数据挖掘技术的迅速发展,聚类分析作为其重要组成部分,已经广泛应用于数据分析、图像处理、市场研究、模式识别等许多领域。而聚类分析算法的研究也已经成为数据挖掘研究领域中非常活跃的一个研究课题。 基于密度的聚类算法是数据挖掘聚类算法中的一个重要分支。它在给定合适的参数的情况下,寻找被低密度区域分离的高密度区域。而在现实生活中,不同的簇往往有不同的密度,存在高密度区域和低密度区域均为有价值的对象组的情况。在处理密度变化较大的簇时,现有密度聚类算法就会遇到麻烦。 当前国内外对密度聚类算法的研究集中于密度聚类算法研究和预处理过程,并针对特定的数据特征开发出了多种密度聚类方法,如基于中心的密度聚类方法、基于网格的密度聚类方法、基于密度函数的密度聚类方法和结合其他算法的密度聚类方法等。本文在全面综述目前常用密度聚类方法的基础上,详细比较了DBSCAN的现有改进算法,指出了这些密度聚类方法在聚类分析密度变化大的数据集时存在的严重弊端及局限性,并且指出这些密度聚类方法缺乏参数自动选择功能,而合适的参数选择对绝大多数算法的聚类效果都是很重要的。 针对密度不稳定的数据集,为了能够同时、分别寻找出不同密度的簇,同时保留密度聚类算法能够处理任意形状和大小的簇、相对抗噪声、结果易于理解等优点,本文提出了一种基于k-dist图的变密度DBSCAN改进算法:VDBSCAN。其基本思想是:通过k-dist图和图中相邻对象的k-dist差值分析,对数据集中的不同密度层次自动选择一组Eps值,分别调用DBSCAN算法。不同的Eps值,能够找到不同密度的簇。VDBSCAN算法在一定程度上克服了以往大多数密度聚类方法的缺点,并且实现了部分参数的自动选择,避免了人工确定参数的主观性影响。通过实验验证该方法可以有效地聚类密度不均匀的数据集,且参数的自动选择方法也是有效的和健壮的。最后,将VDBSCAN算法应用于支出数据集Expenditure Raw,并取得了良好的效果。
其他文献
“消费社会”如今已经成为人们表述当下社会使用频率极高的一个词语.由于科技的进步和传播媒介的普及,消费无孔不入地渗透到社会生活的各个层面.也正是消费物质商品动力的支
一、传统图式的人文意义以及对民族精神的影响rn所谓传统文化是指在历史长期发展过程中形成和发展起来的,并保留在每一个民族中具有稳定形态的文化,它是一个民族历史遗产在现
什么是色彩感觉?这是初学绘画的同学最常思考的问题.许多人将其归纳到艺术天赋当中去,认为敏锐的色彩感觉是一种天赋,对绘画学习有着很大的决定作用.也正足因为如此,很多进行
何为艺术语言?我国出版的中曾作过以下表述:“艺术语言是艺术家借以在艺术作品中体现自己的创作构思的技术手法和造型手段……”水彩画艺术语言特征则是在水彩画艺术语言思维
中国绘画的设色技巧在唐代以前就已经发展到了相当高的水准, 就有“画绘之事,杂五色”的记载,唐以后中国绘画由重彩转向玄素之色,这是多种因素造成的,其中最主要的原因是文人
新闻姓新,新是新闻的生命。如何从大量的“老主题”中发掘出新意来,是我们县广播站挠头的问题。根据我们的实践,可以从两个方面进行探索: 一、从老主题中扣新角度。表面看来
文字、图形、色彩为构成平面设计的三大要素,以其各自的特点在平面设计中担当不同的角色,起着不同的作用.从一般意义上讲,图形传递信息委婉、含蓄、富有艺术性,让人记忆深刻,
开启方式设计在包装设计中有着举足轻重的作用.图形再漂亮,色彩冉绚丽的包装设计如果没有合理的开启方式也不能称之为好的设计,只有让商品能很好地与消费者进行沟通,给消费者
随着现代社会的不断发展,人们对于产品的要求越来越高,对产品更新速度的要求也越来越快.如何在产品开发设计的过程中,缩短产品生产的周期,加快产品更新的速度,在最短的时间内
随着对外开放政策不断深化,我国利用国际贷款的工程项目不断增加;同时在“走出去”战略方针的指引下,更多的中国工程承包企业走出国门到国际市场上承包工程。这些工程承包项目大