高维聚类算法研究

来源 :南京师范大学 | 被引量 : 0次 | 上传用户:jinn
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
聚类分析是数据挖掘领域中一项重要的研究内容,其目标是在没有任何先验知识的前提下,根据数据之间的距离(欧式距离、曼哈顿距离等)或者相似性将数据对象划分为不同的簇(类),使得相同簇中的元素尽可能相似,不同簇中的元素差别尽可能的大。聚类已经在信息过滤、资料自动分类、市场分析等领域得到了广泛的应用。高维聚类作为聚类中一项新的任务已经引起了研究人员的广泛关注,由于高维数据所特有的“稀疏性”和“维度效应”,传统的聚类算法在处理高维数据时效率往往很低甚至失效。而现实生活中又存在着大量的高维数据,如零售交易数据、文档数据、空间数据、地理数据、多媒体数据、网络访问数据、时间序列数据、基因数据等都可以达到成百上千维,甚至更高。由于高维数据的普遍性,因此研究针对高维数据的聚类算法具有非常重要的意义。现有的高维聚类方法主要有以下三种:(1)基于属性约简的方法;(2)基于子空间的方法;(3)其他方法。本文在对现有高维聚类算法进行了深入研究的基础上,提出了一种基于相似维的高维子空间聚类算法SDSCA.算法首先通过Gini值来删除原高维数据空间中的冗余属性,然后运用相似维来寻找彼此相似的属性,最后在这些相似属性所形成的子空间上运用传统聚类算法来进行聚类。实验结果表明算法是有效的,并且能够很好地避免冗余属性的干扰。本文还提出了一种改进的基于相似模式的子空间聚类算法PPSC*,在两方面对原算法PPSC进行了改进:(1)通过Gini值将数据集中的冗余属性删除;(2)将具有较少聚类信息的事务数据库剔除,只对含有信息多的事务数据库来建立P-tree进行频繁子空间和聚类挖掘。通过实验验证了改进后的算法比原算法具有更高的时间效率。
其他文献
随着Internet技术的迅猛发展,互联网已经确立了它第四大媒体的主导地位,成为社会公众发布信息、获取信息和传递信息的主要载体。网络舆情作为社会舆情在网络中的延伸,不仅反映了
随着信息技术和计算机网络的发展,数字图像及视频承载了丰富的信息量在网络之间广泛传播,这对于信息真实性、著作权保护等提出了挑战。数字水印技术作为一种新型的版权保护技
随着计算机多媒体信息技术和网络通信技术的蓬勃发展,数字多媒体信息的存储、复制与传播也变得越来越方便快捷。然而,随之而来的问题也十分严重,如作品侵权更加容易,篡改更加方
计算机网络安全越来越受到人们的重视。网络入侵检测作为网络安全防护体系的主要组成部分,其作用越发重要,如今仍然是网络安全领域中的重点和热点。入侵检测(Intrusion Detecti
随着科学技术的飞速发展,数字图像已成为计算机世界的主要资源之一。传统的图像语义手工标注方法由于主观性强和工作量大等问题已不能满足人们的需要,如何自动地给图像生成标注
AST3是将要安装于位于南极内陆冰穹A的昆仑站的三台口径50cm的施密特望远镜,图像相减变源测光是AST3天文图像测光的主要方法之一,模板的生成是相减测光中重要的步骤,模板是由
作为新一代的互联网,语义网的研究得到越来越多的重视。W3C推荐使用的语义网数据管理方式RDF(Resource Description Framework,资源描述框架)是语义网的基础,其数据模型是RDF
近年来,计算机和网络技术发展日新月异,2015年两会以后,“互联网+”更是成为国家战略。当下,生物识别技术已成为一个重要的研究方向,而人脸识别因其友好性、不易被察觉等特点
教育信息化是国民经济信息化的重要标志。在科教兴国战略指导下,不断提升教育信息化水平是一项具有重要社会效益和战略价值的工作。科研管理系统是高校科研管理实现科研工作的