改进的密度聚类算法研究

被引量 : 0次 | 上传用户:kk77763
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着全球信息量的爆炸式的增长,数据挖掘技术已成为新世纪计算机科学技术的研究热点。聚类分析是数据挖掘的核心任务,而聚类算法的效率和求解质量在数据挖掘中起着至关重要的作用,也是计算机科学领域的难题之一。迄今为止研究者们提出了多种聚类算法,例如划分方法、层次方法、基于网格的方法、基于密度的方法等。其中基于密度的聚类算法是聚类分析的重要分支,其主要优点是能够发现任意形状的聚类,且对噪声数据不敏感。代表性算法包括DBSCAN、OPTICS、DENCLUE、KNNCLUST等。现实世界中的事物大多都具有密度不均匀这一特征,而上述的密度聚类算法由于缺乏处理不同密度聚类的能力,在分析含有不同密度聚类的数据集时效果往往不能令人满意,难以解决实际问题。因此,密度不均匀数据集聚类方法的研究已成为基于密度聚类算法的焦点研究课题。为解决上述难题,本文通过对几种基于密度的聚类算法和分类算法的分析研究,提出了一种结合了分类技术的基于弥散度的聚类算法CUDL(Clustering Using Dispersive degree and cLassification)。CUDL算法主要分为发现聚类核心点和依据聚类结果分类两个步骤。CUDL算法采用“弥散度”这一新的相对密度度量标准,并使用类似OPTICS算法的数据扫描方式,依据弥散度动态的产生弥散度分布图来直观的刻画数据分布,据此确定参数识别聚类的核心点和边缘点。在分类步骤,CUDL使用改进的KNN核密度估计方法将边缘点分类,最终形成完整的聚类。该算法根据数据的实际分布确定参数,在保持了基于密度聚类算法优点的同时,避免了其他算法在不了解数据集结构的情况下主观的给定参数造成的缺陷。理论分析和实验证明,CUDL算法能够较好的解决密度不均匀数据集聚类的问题,并且其聚类效果优于DBSCAN、OPTICS和KNNCLUST算法。
其他文献
内部资金转移价格作为商业银行资产负债管理的核心之一,是调节商业银行内部资金流向、流量的重要杠杆,是提高商业银行经营管理水平的重要手段和方式,对商业银行经营资源配置
在小学数学教学过程中,合理的使用小组合作学习法能够有效的提高学生的学习效率,帮助教师提高教学质量,同时也能够帮助学生形成良好的团队合作意识,进一步培养学生对知识的探
随着人们生活水平的不断提高,客运对快捷、直达和舒适性提出了更高的要求,公路、航空的崛起导致水上客运在综合运输体系中的地位呈现下降趋势。上海港的水上客运业务同样存在
淤泥是一种水利、环境工程中大量产生的废弃土,通过固化处理将其转化为固化淤泥是目前一种有效的资源化利用途径。对于固化淤泥,物理力学性质的研究已经比较多,但是对于收缩性质
目前的通讯工程中仍使用大量射频(RF)技术必不可少的片外分离单元如谐振器、滤波器、耦合器等,阻碍了微型化,高性能,低成本的无线终端产品的进一步发展,即将各种功能单元实现
金华市地处长江三角洲经济圈南翼,是浙江省实施“承东启西”发展战略的重要纽带,更是浙、闽、赣、皖四省九地市经济协作区的“龙头”。在经济位势上为沿海对外开放的发达地区
浅埋偏压连拱隧道的开挖顺序和衬砌结构型式是隧道工程成败的关键环节之一,本文按地层—结构法原理建立有限元数值模型,对偏压双连拱隧道开挖顺序和结构型式进行数值分析、对
介绍了雪莲果的主要功效成分、功能特性以及雪莲果系列产品加工的研究现状和研究进展,为雪莲果成品的生产提供参考。
本文建立了研究可吸入颗粒物PM2.5声场中动力学特性的可视化实验装置,以电站锅炉飞灰颗粒为研究对象,对其在相同声强、不同频率声波及相同频率、不同声强作用下的运动轨迹进