基于边界度模型的聚类技术研究

来源 :郑州大学 | 被引量 : 0次 | 上传用户:a13692624
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
聚类是将相似的数据点划分到同一个簇中,不相似的数据点划分到不同的簇中的技术。在数据分析中,聚类技术可以用来分析数据集中数据的结构、聚类之间的关系等,在模式识别、生物监测、药品研制、信息安全监测等领域发挥着重要的作用。但是,由于高维空间数据的稀疏性,现有的聚类技术对高维空间聚类时存在发现聚类困难和聚类精度不高等问题。与传统的聚类思想不同,本文采用优先查找聚类边界然后向聚类中心搜索寻找聚类的思路提出了新的聚类算法。其创新点如下:提出了一种新的适用高维的聚类算法CASB(A Clustering Algorithm With Affine Space Based Boundary Detection)。该算法首先利用空间的仿射变换后拓扑结构不变性建立聚类边界模型,并以此寻找聚类的边界;然后以边界点为基础构建连接矩阵,再从聚类边界向聚类内部搜索的方式形成聚类。实验表明该算法能够对含有不同密度、不同大小、不同形状的高维数据聚类,与同类的算法相比具有较高的准确度,且参数选取简单。提出了一种基于偏斜边界检测的聚类算法C-USB(A Clustering Algorithm Using Skewness-based Boundary Detection)。该算法首先提出一种偏斜假设,即聚类边缘位置的点及其近邻点在其空间分布上存在偏斜的情况;然后通过计算数据点的偏斜程度来计算数据点的边界度并寻找聚类的边界;最后以边界点为基础删减数据点的近邻关系构建连接矩阵形成聚类。实验表明该算法能够对复杂高维数据集进行聚类分析并保持较高的准确度,特别是能够在大规模的数据集上仍然能够取得很好地聚类效果。提出一种新的面向复杂数据的聚类算法CUSBD(Clustering Based On Skew-based Boundary Detection)。该算法同样提出一种边界点的分布假设,即聚类边缘位置的点及其近邻点在其空间分布上满足偏斜分布(采用gamma分布);然后在此假设的基础上计算数据点及其近邻点的分布偏斜程度来作为该点的边界度并寻找聚类的边界,再以边界点为基础构建连接矩阵形成聚类。实验表明该算法能够有效地控制算法在不同密度、大小、形状、规模的数据集中的聚类准确度,具有计算方便的特点。
其他文献
在计算机技术、信息存储技术及互联网高速发展的今天,越来越多的企业提高信息化程度。在企业的实际应用中,数据挖掘正在被频繁的提起,作为一个多学科交叉应用领域的数据挖掘
随着3G网络建设与覆盖的提升,平板电脑的蓬勃发展,国内三网融合的加速推进,由此产生的包括语音、数据、图像等综合多媒体通信业务需求大量涌现。综合通信业务是利用综合多元
做为处理信息过载的有效手段,推荐系统在近些年得到了广泛的研究与发展,推荐系统在各领域应用的成功案例也不断涌现,但是依然面临着很多问题亟待解决。形式概念分析(Formal C
图像压缩/解压是图像处理领域的经典问题。图像修复是对缺失信息通过保留的信息进行图像的恢复,而图像解压是利用非冗余的有用信息恢复被压缩掉的信息,通过分析两者的共同点,
目前,随着Internet运用的广泛性以及计算能力的日益增长;软件系统应用的网络化使得软件系统面临越来越多的挑战:软件的规模和复杂性在不断地增加;软件系统应用场景也是动态的、
随着移动互联技术的飞速发展,手机已经成为现代人必不可少的日常通讯工具,而近年来智能手机的兴起又给人们带来了新的惊喜,移动终端应用层出不穷,应用程序的功能更是越来越广泛,功
云计算环境下,随着不同用户对不同类型资源需求的增加,云提供商需提供大量的资源以满足不同用户的请求。然而,云计算数据中心为满足用户需求消耗了大量的能源,增加了系统运行成本
随着我国信息化建设的快速发展,信息化应用系统出现了用户身份管理复杂,多套系统具有多套帐号、多套口令、多套安全策略、多种认证方式,无法进行统一管理的问题,不易实现统一认证
多核处理器的兴起使得并行软件变得越来越重要,但是目前并行软件的发展远远落后于并行硬件。作为一种主流的并行编程环境,共享内存并行编程中存在大量的不确定性,这些不确定性增
网络交易的蓬勃发展,在给人们带来方便的同时,也带来了安全隐患。如何有效发现和警示网络交易中的异常行为,是目前在线网络交易中面临的重要挑战。针对网络交易的过程和特点,