基于参考点的密度聚类算法的研究

来源 :合肥工业大学 | 被引量 : 0次 | 上传用户:cgrong
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
数据挖掘可以从海量的数据中以精确和可靠的算法挖掘出有价值意义的新知识。而这些新的知识多种多样,可以丰富人们的眼界,可以作为储备知识,获取的知识可以为用户者提供准确的信息来源。现如今数据挖掘算法中比较重要的算法就是聚类算法,目前已经被广泛应用在数据分析、图像识别、机器学习等领域中。其中,基于密度的聚类算法在聚类分析算法中占有很重要的地位,在医疗、信息检索、市场营销、信息过滤、科学探测与工程等各个领域中都有很好的应用,该算法是聚类分析中的研究重点。DBSCAN算法作为基于密度聚类算法的经典代表,该算法不需要预先指定聚类簇数,可以在含噪声数据的数据集中识别任意数量和任意形状的聚类。然而,在其DBSCAN算法的过程中,该算法存在一些不足之处,如时间复杂度很高,需要消耗大量时间,并需要消耗大量的内存空间。DBSCAN算法开始执行时使用了全局的Eps、Min Pts这两个参数,该算法对这两个参数依赖性很大,参数的变化对聚类的结果影响很大。同时,对于密度不均匀的数据集,该算法的聚类结果较差。本文通过对DBSCAN算法基础性学习分析,针对算法的不足之处,做了如下研究:1、针对基于密度DBSCAN算法时间复杂度很大的问题,本文提出了一种基于参考点的快速密度聚类算法。新算法以k个参考点分布状态间接的反应了数据的分布状态,然后基于参考点对数据进行聚类分析。该算法保持了DBSCAN的优点,并且可以减少区域查询次数,降低I/O开销。理论和实验证明新算法能够有效地对大规模数据库进行聚类,且其执行效率明显高于传统的基于R*树的DBSCAN算法。2、针对输入参数的变化对基于密度聚类算法结果的影响和DBSCAN算法无法很好地聚类出多密度层次的数据集的问题,本文提出了一种基于k近邻和参考点的密度聚类算法。该算法将不均匀数据集看作为不同密度层次的聚类区域,通过查询数据集中每个点的k近邻来寻找聚类。首先基于第一个参考点即区域中心点(区域密度最大的点)进行聚类,通过引入离簇度和密度参数来直至达到区域边缘。同时,为了提高密度聚类的准确性,在聚类簇形成的过程,从候选参考点中发现参考点,加大了对参考点的选取条件。试验结果表明,该算法不仅能够发现任意形状、大小和密度的聚类,而且降低了聚类对输入参数的敏感性,增强了对密度不均匀数据集的聚类效果,提高了聚类质量的准确率。
其他文献
<正>对于每一个孩子来说:生活自理能力的形成有助于培养他们的责任感、自信心以及自己处理问题的能力,对今后的生活也会产生深远的影响。生活自理能力是指孩子在日常生活中照
本文以《黄帝内经》为总纲,结合白癜风的病因病机、证型、组方用药、预后等,综合分析其预防、治疗与调养的方法,认为白癜风的病因病机与风邪及气血有关,预防与调养要慎防风,
<正>实施教育新政,给优秀学生更多的自由支配时间和发展能力的空间,但对学困生在获得发展自由度的同时显得无所适从。如何在实施教育新政中关注学困生,帮助他们提高学习成效
目的 探讨球部尿道悬吊术对男性后尿道成形术后和前列腺切除术后尿失禁的治疗效果。 方法 从手术方法和术后尿动力学指标及临床效果方面 ,对采用球部尿道悬吊术治疗的男性
福州地铁5号线吴山站地层为淤泥、黏性土等不良地质,距离基坑边DN500次高压燃气管线在基坑开挖出现沉降,存在重大安全隐患,需对管线采取悬吊保护措施,通过监测数据表明,措施
<正>一、20世纪50年代日本重污染情况1.污染情况随着20世纪50年代经济的飞速发展,严重的空气及水污染笼罩着日本。1955年发生了第一起严重损害人类健康的案例,当时该疾病被称
本文对国内外油田采用的提高采收率技术及发展进行了概述,详细介绍了化学驱、热力驱、注气驱、微生物驱及物理法五种技术。目前进入矿场规模化应用的是化学驱、热力驱、注气
目的:描述山东省甲型H1N1流感病毒感染入院患者的临床特征、治疗经过及预后,重点评价治疗过程中抗病毒药物奥司他韦在不同给药时机、剂量及疗程应用对患者预后的影响。方法:收
随着我国经济的不断发展,人们对房屋的需求逐年增大,这导致了我国的房地产事业不断发展,房地产商队伍也随之迅速扩大。而如今,我国对于房地产行业正在进行调整、整顿,很多房
借助期权博弈理论及控制权私人收益理论的研究思想,文章分析了上市公司募集资金投向变更行为动机与效果之间的关系。以2006~2009年中小板首发上市公司为对象,研究发现募集资