基于密度的改进型层次聚类算法研究

来源 :兰州大学 | 被引量 : 0次 | 上传用户:anqir621
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
数据挖掘是帮助我们从海量数据中发现有价值的信息的一种重要工具,而聚类分析又是数据挖掘中的一个重要的研究方向。聚类分析在生物学、统计学、机器学习、商业决策等领域都得到了成功应用。目前的聚类算法都比较有针对性,所以对于更高效、更准确、更全面的聚类算法的研究仍然是一大热点。层次聚类是聚类分析的一个重要分支,本文重点分析研究了层次聚类算法,并对一些代表算法的聚类性能进行了分析比较。CURE算法是一种典型的层次聚类算法,该算法对收缩因子这一参数很敏感,而且噪声和孤立点很难界定。针对CURE算法存在的不足,本文提出了一种改进的基于密度分层的层次聚类算法。改进算法将数据集中的点按照密度大小排序,将密度最小的约10%的点作为偏离点(包括噪声和孤立点)排除掉。将剩余的点按照密度大小分层,在密度最大和最小两层上分别进行凝聚层次聚类,然后在分层聚类的基础上对所有剩余点进行凝聚层次聚类。最后将偏离点划分到与之最近的已聚好的类中。改进算法对噪声和孤立点不敏感,不需要收缩因子这一参数,对多种非球形簇有很好的聚类效果。通过对比实验证明,改进算法的聚类效果明显优于CURE算法,算法效率也在一定程度上优于CURE算法。另外,本文还详细分析了2014年Alex Rodriguez在science上发表的文章Clustering by Fast Search and Find of Density Peaks中提出的一种新颖的基于密度的CBDP算法。针对CBDP算法只能处理类内数据分布不均匀、不同类的数据密度差距不大的数据集的缺点,提出了一种改进的层次聚类算法。改进算法通过计算数据的密度和距离,排除了密度很小而距离很大的噪声和孤立点,使改进算法对噪声和孤立点不敏感。通过绘制数据的密度和距离乘积分布图,即i—ρi*δi分布图来确定密度峰值点。然后以密度峰值点为中心,计算最小类间距离,不断进行类的合并,直至达到聚类数目。在二维和多维数据集上的实验证明了改进算法的聚类结果明显优于CBDP算法,而且聚类效果更稳定。
其他文献
今年我省将建立重大危险源信息数据库,用以加强和规范对重大危险源的监测监控,遏制我省重特大事故的发。:
为指导油研50大面积推广种植提供科学依据,设置5个(4000株/亩、5000株/亩、6000株/亩、7000株/亩和8000株/亩)不同栽培密度,分析其农艺性状和产量,并得出最佳栽培密度。结果
配电网规模越来越大,自动化程度也越来越高,对于减少配电网运行故障具有重要作用。在配电网运行日常管理中,一定要优 化配电网结构,改进配电网运行质量,做好信息传输和诊断工
本文介绍了溪洛渡同塔双回直流工程从西换流站功率调整存在的问题,并根据现场情况进行分析,最后,针对目前溪洛渡工程 中直流功率调整存在的问题,提出了有利于现场运行人员操
课堂结尾是一门艺术,好的结尾不仅可以对教学内容起到概括的作用,而且能延伸拓展课堂教学内容.使学生自始至终保持浓厚的学习兴趣。作为课堂教学的一个环节,做好课堂结尾的设计与
在国家的发展进程中,政府职能的效率对国家的发展有着至关重要的作用。而公共部门的办事效率直接受到其部门人力资源管理的有效性影响。因此,人力资源管理科学性的高低直接影
为研究中国中老年群体的健康差异及其影响因素,通过引入新的健康度量法——欧洲五维健康量表法(EQ-5D),并采用1 639名中老年人的调查数据,对健康和健康差异影响因素进行实证
回 回 产卜爹仇贱回——回 日E回。”。回祖 一回“。回干 肉果幻中 N_。NH lP7-ewwe--一”$ MN。W;- __._——————》 砧叫]们羽 制作:陈恬’#陈川个美食 Back to yield
加州参议员余胤良提出SB628中医跌打伤科法案6月2日顺利通过第三关,当天,州参议会以25票比12票支持中医跌打伤科合法化。
为了给日常农产品农药残留检测工作提供参考,使用不同时间与测定仪的使用手册的标准时间,用酶抑制率法进行农药残留快速检测差异显著性试验,对不同着色反应时间的抑制率差异