论文部分内容阅读
聚类是将相似的数据点划分到同一个簇中,不相似的数据点划分到不同的簇中的技术。在数据分析中,聚类技术可以用来分析数据集中数据的结构、聚类之间的关系等,在模式识别、生物监测、药品研制、信息安全监测等领域发挥着重要的作用。但是,由于高维空间数据的稀疏性,现有的聚类技术对高维空间聚类时存在发现聚类困难和聚类精度不高等问题。与传统的聚类思想不同,本文采用优先查找聚类边界然后向聚类中心搜索寻找聚类的思路提出了新的聚类算法。其创新点如下:提出了一种新的适用高维的聚类算法CASB(A Clustering Algorithm With Affine Space Based Boundary Detection)。该算法首先利用空间的仿射变换后拓扑结构不变性建立聚类边界模型,并以此寻找聚类的边界;然后以边界点为基础构建连接矩阵,再从聚类边界向聚类内部搜索的方式形成聚类。实验表明该算法能够对含有不同密度、不同大小、不同形状的高维数据聚类,与同类的算法相比具有较高的准确度,且参数选取简单。提出了一种基于偏斜边界检测的聚类算法C-USB(A Clustering Algorithm Using Skewness-based Boundary Detection)。该算法首先提出一种偏斜假设,即聚类边缘位置的点及其近邻点在其空间分布上存在偏斜的情况;然后通过计算数据点的偏斜程度来计算数据点的边界度并寻找聚类的边界;最后以边界点为基础删减数据点的近邻关系构建连接矩阵形成聚类。实验表明该算法能够对复杂高维数据集进行聚类分析并保持较高的准确度,特别是能够在大规模的数据集上仍然能够取得很好地聚类效果。提出一种新的面向复杂数据的聚类算法CUSBD(Clustering Based On Skew-based Boundary Detection)。该算法同样提出一种边界点的分布假设,即聚类边缘位置的点及其近邻点在其空间分布上满足偏斜分布(采用gamma分布);然后在此假设的基础上计算数据点及其近邻点的分布偏斜程度来作为该点的边界度并寻找聚类的边界,再以边界点为基础构建连接矩阵形成聚类。实验表明该算法能够有效地控制算法在不同密度、大小、形状、规模的数据集中的聚类准确度,具有计算方便的特点。