基于密度聚类算法的研究与改进

来源 :内蒙古大学 | 被引量 : 16次 | 上传用户:SOHOCJ
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
聚类分析,是一种在没有任何先验知识的情况下对待聚类数据根据数据间的相似性来进行分类的一种技术,在模式识别中被称为无监督分类,在统计学中被称为非参数估计。聚类分析被广泛地应用于众多学术领域,比如生物信息学、信息安全、文本聚类等。在过去发展的几十年,数以千计的聚类算法被不同学者提出,但是仍存在很大的研究空间,例如如何处理不同形状及密度的簇,对高维数据的合理计算,如何有效测定聚类结果当中簇的数量,噪声点的合理检测及如何定义及评判一个正确的簇等等。Alex Rodriguez与Alessandro Laio在2014年提出了一种新的启发式聚类算法 CFSFDP(Clustering by Fast Search and Find of Density Peaks)。该算法具有初始参数少、执行速度快、可有效探测目标簇数目及对噪声数据不敏感的特点,本文通过一系列实验证明了该算法的有效性,并且该算法提出者利用Olivetti人脸数据库中的图片聚类来证明该算法可以处理高维度数据。然而通过学习研究发现,该算法在遇到某些情况时表现不好。首先,该算法的初始簇中心的选取需要依靠人工选定且对处于密度稀疏区域的簇中心无法有效提取。其次,该算法认定数据集中的每个簇有且仅有一个局部密度值极点,这将导致拥有多密度极值点的簇及共享密度极值点的簇被错误划分。再者,该算法对噪声点的识别方法会致使较多的数据点被判定为噪声。基于这些发现,本文提出一种新的基于密度峰值的算法,改进算法通过改进的决策值计算方法来构建决策图,通过发现决策图拐点来自动识别簇中心。然后通过加入构建子簇的局部密度分布图的操作以及改进的层次聚类算法思想对错误划分的子簇进行分割和合并,最后通过新引入的数据点离群度计算公式来识别噪声。通过实验表明,该改进算法在多个数据集上的聚类效果优于原有的算法及其他基于密度的聚类算法。
其他文献
以三棱柱为同一参照物,采用超平面拟和方法拟和三棱柱的4个平面,然后提取顶面的三角形,通过重合技巧使两个三角形重合,完成3D颅骨和相貌之间匹配。
对25例额下硬膜外入路修补术治疗脑脊液鼻漏患者给予密切护理配合,效果满意。认为做好充分术前准备,尤其是特殊器械的准备、熟悉手术步骤及手术过程中的注意事项,多方面相互协调
先天性巨结肠症在胃肠道畸形中占第二位,新生儿发病率为1/5 000,在成人中更为少见,故易误诊。我院从1990~2000年以来收治的5例成人先天性巨结肠症均在外院误诊,3例在我院术前误诊
目的了解东乡族和保安族的农村学龄儿童血清维生素A(vitamin A,VA)水平,为少数民族儿童营养干预提供科学依据。方法按照整群分层抽样方法抽取东乡族民族聚居区(甘肃省东乡县)
实行变动成本法是企业明智的选择赵智全企业经营管理水平的高低,很大程度上取决于会计核算提供信息的质量特性,随着市场经济的发展,现代企业制度的建立,会计在企业管理中的地位和
研究目的应用血清分型、毒力基因检测和ERIC-PCR技术对广东省2004~2007年自食物中毒病人和水产品分离的副溶血性弧菌(vibrio parahaemolyticus,VP)进行血清分型、分子特征及溯
我国是一个地域广阔、资源类型多样、土地利用类型和土地利用结构复杂的国家,此外,我国又是一个发展中的国家,正处在工业化的过程中,土地资源的利用类型变化巨大,在进行全国范围的