软子空间聚类算法研究及其应用

来源 :厦门大学 | 被引量 : 0次 | 上传用户:giwood
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
聚类分析是数据挖掘领域最重要的研究热点之一。然而随着技术的进步,聚类分析许多应用领域的数据具有很高的维度,同时受“维度效应”的影响,传统的聚类算法在高维数据上的聚类精度不尽如人意。因而研究高维数据的聚类分析方法具有非常重要的意义,已成为近年来研究的一个重点课题。   在高维空间中,簇类可能只存在于某些低维子空间中,而不同的簇类所处的子空间也可能存在差异。因而子空间聚类方法成为高维数据聚类分析中的一个研究热点。现有软子空间聚类算法多关注于簇类紧凑度的信息,忽略投影子空间的优化,在数据点之间普遍存在“低相似性”的情况下,难以准确定位聚类过程的初始点。   本文从高维数据投影子空间的优化目标入手,提出新的软子空间聚类算法、开展高维数据的聚类鲁棒性等研究;并在垃圾邮件过滤领域进行应用研究。论文的主要研究工作包括:   1.高维聚类的初始化的研究:提出一种基于公共近邻密度的初始化算法。该算法利用点的局部密度来评估可能的高密度区域,以此来定位簇的初始中心点。该方法有利于发现不同形状以及不同密度的簇类,并适用于子空间聚类算法和全空间聚类算法。实验结果表明,算法提高了聚类结果的稳定性和可靠性;   2.子空间聚类算法的研究:提出一种基于子空间差异的K均值型软子空间聚类算法。新算法致力于投影子空间的不断优化,算法过程不需要用户指定额外的参数。在此基础上,结合新的子空间聚类初始化方法,提出具有高维鲁棒性的软子空间据类算法。实验结果表明,新算法能够提高聚类的精度,并且具有良好的数据伸缩性;   3.文本挖掘应用的研究:设计并实现了一个基于子空间聚类的垃圾邮件过滤系统,通过实际应用验证算法的有效性。系统为进一步研究子空间聚类的应用提供了基础。  
其他文献
随着社会经济的飞速发展,公共场所的安全问题面临日益严峻的考验,如何对这些公共场所进行有效地控制和管理,是非常重要的问题。智能监控的出现在一定程度上很好的解决了这一
医学图像的三维重建是采用面绘制或体绘制的成像算法对CT、MRI等图像数据进行处理,从而为医生提供具有真实感的三维立体影像。它能将组织器官内部的层次关系表现出来,呈现出
随着软件技术的快速发展和软件产品的广泛应用,软件测试作为保障软件质量的重要手段越来越受到研究人员的关注。近年来面向对象软件开发技术的广泛应用,带来了信息技术革命的同
随着Web服务标准逐渐被广泛采纳与实现,高度异构的软件系统之间的互操作已经取得了前所未有的进步,面向服务的架构也因其在IT项目中的重要角色而获得广泛的认可,软件作为一种服
医学图像分割是虚拟器官研究工作的重要基础。在虚拟器官研究的工作中,医学图像分割属于前端工作,是医学图像处理进入到医学图像分析的关键步骤,影响着后期的形态建模和物理
随着网络的高速发展,网络中的信息量越来越大,而且质量参差不齐。如何在海量信息中找到满足用户需求的高质量搜索结果变得越来越重要,技术上也更加困难和具有挑战性。目前,搜
赤潮日益成为危害海洋生态环境和人类生产生活的自然灾害。近年我国沿海地区赤潮频发,规模亦呈增长趋势。监控和预测赤潮爆发并及时采取防治措施,利于保护环境,保证渔业生产
内存数据库是一种针对内存的组织和管理的数据库管理系统,它把整个数据库都存储在内存中,具有比传统磁盘数据库更高的实时响应能力,适合用在通信、网上银行、证券交易等实时性高
在医学图像处理技术中,一直以来都存在着一个十分关键的问题,那就是如何正确地提取出我们关心的解剖组织对象也就是我们感兴趣的目标区域,这也正是如何对医学图像进行准确的
人体行为识别是计算机视觉领域的研究热点和难点,在智能监控、高级人机交互、体育运动分析和基于语义的视频检索等方面有着重要的意义和广阔的应用前景。计算机理解人体动作和