论文部分内容阅读
大数据时代,聚类是数据挖掘中常用的一种无监督学习方法。它根据数据的相似度将数据集划分为不同的簇,使得同一簇中的元素尽可能相似,不同簇中的元素相异。基于密度的聚类算法DBSCAN可以发现不同形状和大小的簇,并识别噪声或异常值。如何提高DBSCAN聚类结果的准确度和实用性是一项值得研究的方向。本文对DBSCAN算法进行研究,并作了如下的工作:(1)针对传统DBSCAN算法对高维数据集聚类效果不佳且参数的选取敏感问题,提出一种基于相似性度量的GS-DBSCAN算法。该算法构造了测地距离和共享最近邻的数据点之间的相似度矩阵,克服欧式距离对高维数据的局限性,更好地刻画数据集的真实情况,还可以通过分析数据的分布特征来自适应确定Eps和MinPts参数。实验结果表明,GS-DBSCAN算法能够有效地对复杂分布的数据进行聚类,且在高维数据的聚类准确率高于对比算法。(2)针对简单线性迭代聚类(SLIC)仅考虑颜色和空间特征导致分割不准确的问题,提出了一种改进的SLIC和DBSCAN的图像分割方法。首先使用双边滤波执行图像增强,消除图像中的噪声且保护边缘特征。然后结合自适应多阈值LBP纹理特征的SLIC算法将彩色图像分割为超像素块,最后使用DBSCAN算法进行聚类合并,以获得分割后的结果图。实验结果表明,所提算法能准确地分割图像边界。与现有的其它图像分割方法相比,分割的准确率和质量得到了显著提高。