子空间高维聚类算法的研究

来源 :重庆理工大学 | 被引量 : 0次 | 上传用户:h725bin
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
传统的聚类算法一般是采用基于距离为基础的数据聚类,但是随着样本维数的不断增多,数据点的间距差别很小,这样就使基于距离度量的聚类算法在高维数据领域失去意义,故传统基于距离聚类的方法在高维空间中面临着巨大的挑战。然而,在某些局部空间却存在着潜在的有价值的信息,所以寻找有效的高维聚类算法成为人们研究的方向。目前最常用的高维聚类算法有两种方法:第一、高维降维后用传统方法聚类;其利用降维算法对高维子空间数据进行降维操作,只留下兴趣度高的空间,然后利用传统的基于距离的聚类算法对子空间进行聚类。第二、选择特征子集,在子空间中进行聚类;其算法自动在高维空间中寻找信息含量较高的子空间进行聚类,这种算法开支较大,需要遍历每一个维度。本文针对以上这两种情况分别做了如下研究工作:在第三章中主要针对用Isomap降维后的特征子空间中数据分布混乱,无法正常进行分析的问题,提出了一种基于距离相似性的meansK?聚类算法,对降维后的子空间数据样本进行聚类。改进的算法通过距离相似性的差异排除孤立点并且科学的选取了初始聚类中心,降低了算法的时间复杂度,而且聚类得到的簇内部更加紧凑。因为能够用高维降维后聚类方法的数据样本有很大的要求,不具有普遍性,因此第四章中引进了一种改进的CLIQUEnew?高维子空间聚类算法,其通过分析传统基于距离聚类算法存在的问题,提出了一种以Gini值为标准的维度约简方法对高维数据进行预处理,降低了数据的维度;同时对CLIQUE算法进行改进,利用混合网格技术对稠密单元进行划分,防止稠密单元被分割到两个簇中,接着采用备份只含有稠密单元的有效数据库’D。改进后的算法比原算法搜索速度更快,聚类精度更高。
其他文献
无线传感器网络融合了网络、信息、通信以及半导体等先进技术,在环境监测、国防军事、工业、公共卫生事业以及野生动物保护方面得到了广泛的应用。长期以来,无线传感器网络的
在网络管理中普遍存在信息安全保障和资源有效分配等方面的问题,这些问题都与用户的操作行为密切相关。本文针对基于Web日志的用户访问模式挖掘问题进行了较为深入的分析和研
当前互联网高速发展,使得海量的、内容丰富的文字信息以计算机可读的形式存在,并且其数量每天仍在急剧增加。为了有效的管理和利用这些分布的海量信息,基于内容的信息检索和
本文以绝经综合征为基础,对中医药临床疗效评价方法进行深入的研究。在国家“十五”攻关项目研究所取得的成果数据库和基本疗效评价指标体系的基础上,以症状指标、生化检查指标
随着网络应用技术的发展与进步,软件架构发生了从C/S到B/S的转变。然而,B/S模式不能解决所有客户端应用问题。人们发现简单的浏览器页面已经不能满足新的需求,丰富快速的用户体验及
近年来,随着计算机技术、多媒体技术的飞速发展,表格影像文档的自动分类、存储和管理日益成为人们研究的热点。而表格影像文档的特征提取是影像文档自动管理领域里重要的研究课
合成孔径雷达因其全天候和高分辨率成像的特点,近年来得以快速发展。与此同时,随着近代的计算机技术和先进的数字信号处理技术的发展,合成孔径雷达在许多领域得到广泛的应用,
随着互联网的快速发展,网络上信息的数量也在急剧增长。互联网给人们提供了大量信息,但同时也给人们快速准确的获取信息带来挑战。为了能有效地利用网页资源,我们需要对网页
互联网的出现给经济发展带来了新的机遇,但也带来了新的挑战。就在人们对互联网的依赖越来越深的同时,数以百万计的不法分子正在互联网上通过恶意网站进行诈骗和传播恶意软件
现阶段的万维网在信息表达与检索方面存在着一些严重的缺陷,为了解决这些缺陷,Tim Berners-Lee提出了下一代因特网的概念——语义Web (SemanticWeb)。在语义Web的七层结构中,