论文部分内容阅读
在大数据时代,数据中蕴含着巨大的价值,机器学习在数据挖掘中表现出卓越的效果,逐渐成为数据挖掘的主要技术。聚类算法是机器学习领域的一个重要技术。在众多场景中有着广泛的应用,例如商品推荐,数值预测。然而在这些场景中数据的数值范围十分广阔,并且都有着定制化的个性服务,在商业数据中的数据中,存在着大量的正向逐渐稀疏的数据。这样的数据集上进行个性化聚类,不仅要求聚类算法适合非均匀大数据,也需要具有结果多样化,高同质化。但是传统的DBSCAN算法对这些需要题捉襟见肘。针对这些需要,论文给出了一个基于DBSCAN算法的非均匀密度有约束扩展优化算法CEAV-DBSCAN(Constrained Extension and Adaptive Varied Algorithm Based on DBSCAN)。面对数值广阔正向逐渐稀疏的非均匀密度数据,论文在DBSCAN算法的理论基础上,加入比例因子,改变邻域的计算方式,实现算法的自适应领域设置。针对聚类结果的个性化、缩小类群提高类别的同质性、增强多样性的需要,在分析DBSCAN算法的类别合并原理后,加入同质因子这一参数,在类别合并前对同质因子进行判断,实现了聚类中合并的可控性、高同质、多样性。最后,对CEAV-DBSCAN的性能做了评估,论文在D31数据集和R15数据集进行聚类实验,并在信用卡用户的真实数据集上做了应用实验。通过分析实验结果可以得到CEAV-DBSCAN算法在对数值广阔正向逐渐稀疏的非均匀密度数据集进行个性化聚类时,比DBSCAN算法具有更高的同质性、多样性。适合解决数据数值广阔正向逐渐稀疏的聚类问题,也适合解决有着有着多样性要求的个性服务场景下的聚类问题。