个性化聚类下基于DBSCAN的密度聚类算法研究

来源 :华中科技大学 | 被引量 : 0次 | 上传用户:lym66688
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在大数据时代,数据中蕴含着巨大的价值,机器学习在数据挖掘中表现出卓越的效果,逐渐成为数据挖掘的主要技术。聚类算法是机器学习领域的一个重要技术。在众多场景中有着广泛的应用,例如商品推荐,数值预测。然而在这些场景中数据的数值范围十分广阔,并且都有着定制化的个性服务,在商业数据中的数据中,存在着大量的正向逐渐稀疏的数据。这样的数据集上进行个性化聚类,不仅要求聚类算法适合非均匀大数据,也需要具有结果多样化,高同质化。但是传统的DBSCAN算法对这些需要题捉襟见肘。针对这些需要,论文给出了一个基于DBSCAN算法的非均匀密度有约束扩展优化算法CEAV-DBSCAN(Constrained Extension and Adaptive Varied Algorithm Based on DBSCAN)。面对数值广阔正向逐渐稀疏的非均匀密度数据,论文在DBSCAN算法的理论基础上,加入比例因子,改变邻域的计算方式,实现算法的自适应领域设置。针对聚类结果的个性化、缩小类群提高类别的同质性、增强多样性的需要,在分析DBSCAN算法的类别合并原理后,加入同质因子这一参数,在类别合并前对同质因子进行判断,实现了聚类中合并的可控性、高同质、多样性。最后,对CEAV-DBSCAN的性能做了评估,论文在D31数据集和R15数据集进行聚类实验,并在信用卡用户的真实数据集上做了应用实验。通过分析实验结果可以得到CEAV-DBSCAN算法在对数值广阔正向逐渐稀疏的非均匀密度数据集进行个性化聚类时,比DBSCAN算法具有更高的同质性、多样性。适合解决数据数值广阔正向逐渐稀疏的聚类问题,也适合解决有着有着多样性要求的个性服务场景下的聚类问题。
其他文献
在11年生红地球葡萄上,喷施核酸增进型植物营养素叶面肥。结果表明:喷施植物营养素叶面肥的葡萄与喷清水的对照,在果枝率、坐果率、单粒质量、单穗质量、好果率及产量方面均呈极
1.1覆盖保墒 覆盖材料有作物秸秆(最好是玉米秸秆)或粉碎的树皮。先将玉米、小麦等秸秆铡碎,待雨过天晴后,距树干50cm处均匀地铺在树盘下,厚度为15-20cm,草上零星压土以防风防火,667m