基于DBSCAN的自适应非均匀密度聚类算法研究

来源 :北京交通大学 | 被引量 : 25次 | 上传用户:zhangsanzong
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着信息技术的高速发展,数据的规模呈现爆炸式增长。从错综复杂的数据中挖掘出有价值的信息具有巨大的实际意义。聚类算法作为数据挖掘领域中的一类重要方法,被广泛应用于数据分析与挖掘中。DBSCAN算法是一种典型的聚类算法,以数据密度为度量,可以识别数据集中任意形状的类及噪音点。本论文以DBSCAN算法为研究对象,针对其对数据参数Eps和MinPts敏感、在处理非均匀密度数据集时效果不理想等问题进行研究,提出了改进方法,并给出了一种适合于大规模数据的聚类方法。论文的研究工作得到了国家自然科学基金项目(No.61172072、61271308)、北京市自然科学基金项目(No.4112045)和高等学校博士学科点专项科研基金(No.20100009110002)的支持。论文的主要工作如下:首先,为了提高DBSCAN算法对非均匀密度数据集聚类的准确性,本文提出了自适应的非均匀密度聚类算法(Adaptive Varied-Density-Based Spatial Clustering ofApplications with Noise,AV-DBSCAN)。该算法改变了 DBSCAN 算法的邻域及类的定义,将DBSCAN算法中的Eps-邻域改为MinPts-邻域;并通过M-近邻有向图间接得到全局密度参数Eps和MinPts的值,减少了人为选择密度参数的困难。算法将一个类定义为类核心集与类边界集的组合。在聚类中引入有向图的最大连通分量思想,用以识别数据集中的类核心集;再利用有向图的弱连通性识别剩余数据集中的类边界集。与DBSCAN算法相比,该算法在保持相同时间复杂度的前提下,不仅提高了对非均匀密度数据聚类的准确性,也降低了对密度参数的敏感性。然后,为了适应当今数据集规模不断加大,本文提出了基于平衡迭代归约的自适应非均匀密度聚类算法(Balanced Iterative Reducing-Adaptive Varied-Density-Based Spatial Clustering of Applications with Noise,BIRAV-DBSCAN)。该算法综合了 BIRCH算法简单高效与AV-DBSCAN算法准确性高的优势。它可以利用有限的内存资源及较少I/O消耗,以较小的误差对大规模的非均匀密度数据集进行高效率聚类,并且可以识别数据集中任意形状的类和异常点。由于该算法扩展性较好,如果将该算法与并行化技术结合可以增大对大规模数据集的处理能力。最后,为了评估AV-DBSCAN和BIRAV-DBSCAN算法的有效性及可靠性,本文采用两个仿真数据集及一个新闻数据集进行实验。实验结果验证了 AV-DBSCAN算法在对非均匀密度数据集聚类时具有较高准确性;BIRAV-DBSCAN算法在有限的精度损失下,聚类的效率更高,并且其运行时间随着数据集规模的增长呈线性增长趋势。因此BIRAV-DBSCAN算法更为适宜较大规模数据集的聚类问题。
其他文献
本文从高新技术企业所得税优惠政策的演变入手,梳理总结我省推进高新技术企业发展的政策举措,分析高新技术企业政策存在的问题,提出了完善高新技术企业所得税优惠政策落实等
回 回 产卜爹仇贱回——回 日E回。”。回祖 一回“。回干 肉果幻中 N_。NH lP7-ewwe--一”$ MN。W;- __._——————》 砧叫]们羽 制作:陈恬’#陈川个美食 Back to yield
目的探讨将精细化护理应用于妇科肥胖患者的临床护理效果。方法将肥胖手术患者256例随机分成观察组和对照组,每组128例,观察组围术期采用精细化护理,观察对比2组围术期并发症
一、低产原因1.管理粗放。夏季采完果后大部分杏园放任不管,草放任生长,虫子随意生,叶子任意掉,旱涝随天,秋冬贮存营养物质少,影响来年产量。2.春季施肥。春季施肥对当年的果
文章提出了用于电力监控系统中的一种基于规则的事故画面与应急预案推送方法,首先,加载规则对象及规则对象的层级逻辑关系并利用规则对象解析器进行解析。其次,通过消息注册
<正>一、纸浮雕的课程特点纸浮雕是用不同纸张在一个平面上粘贴成有层次的凹凸的浮雕。纸浮雕课是学生非常感兴趣的学习内容。其用材简便、制作容易,有较强的立体效果与装饰
目的探讨药学监护对口服降糖药物治疗糖尿病降糖效果的影响。方法 100例糖尿病患者,随机分为观察组和对照组,各50例。对照组患者采用常规用药指导,观察组患者采用药学监护。