基于半监督的高维聚类算法研究

来源 :江苏大学 | 被引量 : 0次 | 上传用户:lv_dan1102
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
半监督学习是近几年来机器学习的一大研究热点,相比于传统的无监督和监督学习,半监督学习同时利用有标记和无标记样本来提高学习效果。其中,半监督聚类是半监督学习的一个重要分支,在处理图像分类以及人脸识别等应用中可见其重要作用。   随着数据采集技术的发展,数据采集的种类越来越多,维数越来越高。现有的半监督聚类算法和传统的聚类算法一样,时间效率随着数据的维数增长呈指数增长。一个行之有效的方法是先通过对数据集进行降维,再用传统的算法进行聚类。但现有的半监督降维算法在利用未标记数据时,没有考虑数据点之间的距离关系,导致降维以后数据点之间的距离关系产生偏差,降维效果并不理想。同时,现有的半监督聚类算法通常使用单个质心来代表一个簇,只适合类球形的簇,难以适合非球形的簇。而且当数据集中出现离群点时,也会干扰数据集的聚类效果。因此,本文主要研究能保持数据点之间距离关系的高维数据的降维算法;研究非球形簇的聚类问题;研究消除离群点对聚类精度影响的半监督聚类算法。论文的主要贡献如下:   (1)通过对现有的半监督聚类和降维算法的分析,发现现有的半监督聚类算法存在只适合球形簇的聚类,聚类结果对离群数据敏感;数据在降维以后不能够保持数据集之间的距离远近关系等局限。   (2)提出基于代表点的方法解决非球形簇的聚类问题,即基于成对约束的半监督聚类算法SBIRCH。算法在BIRCH算法的基础上,通过选取多个点来代表一个簇,解决传统算法只用单个质心来表示一个簇,不适合非球形的几何形状簇的问题。同时在聚类算法结束前通过剔除单个点的簇来解决离群点对聚类的影响。实验结果表明,该算法可有效解决任意形状簇的聚类问题,减少离群点对聚类结果的影响,提高聚类精度。   (3)提出基于距离权值的方法解决高维数据降维后距离关系发生偏差的问题,即基于权值的局部保持半监督降维算法WSSDR。该算法不仅利用正、负约束信息,同时利用数据点之间的距离权值来保持数据点之间的距离关系,使得高维数据在降维以后仍保持远近关系不变,从而保持数据集所在的低维流形结构。通过实验表明,该算法能够有效解决降维后数据点之间因维数的缺少而产生的远近关系偏差,提高降维效果。   (4)提出一种基于半监督的高维聚类算法。该算法首先利用WSSDR算法对高维数据进行降维处理,然后再利用SBIRCH算法对降维后的数据进行聚类。实验结果表明,该算法在降维阶段能够有效的保持数据点之间的距离远近关系,同时解决任意形状簇的聚类问题,提高高维数据聚类精度。  
其他文献
摘要:目前P2P流媒体技术已经成为互联网上应用最广的流媒体应用的技术。基于P2P技术的流媒体业务也因此迅速发展,使得业务类型和流媒体用户大量增多,使得用户管理、业务管理和
数据通信的发展越来越趋向于无线化,但是无线网络中,有限的带宽资源以及复杂多变的信道特性,限制了视频和音频等多媒体实时业务服务质量。在2005年底出台的IEEE802.11e是传统
随着网络技术的迅速发展,互联网上的信息量呈几何级数的增长。对于不同背景和不同兴趣爱好的人,要从浩瀚的信息海洋中找到其需要的信息,是一项较大的挑战,个性化的信息检索系统满
随着互联网规模的急剧膨胀以及互联网新业务的大量涌现,使得网络拥塞不可避免。在网络研究领域,拥塞控制已经引起了越来越多研究人员的关注。路由器中采用主动队列管理(AQM,A
随着互联网技术迅猛发展,XML文档由于其自身的自描述性、半结构化、可扩展性等特点,已经成为当今网络时代的信息载体与交换方式,一个高效、快速的XML文档聚类机制将会极大缩
对等网络(P2P Network)技术发展十分迅速,各种基于对等网络技术的应用软件层出不穷,已经广泛应用到文件共享,分布式计算,边界服务等各个方面。据德国互联网调研机构ipoque称,
随着互联网和信息服务技术的高速发展,不同信息系统之间的互联互通,乃至整合集成已经成为一种迫切的需求,网格技术是解决这一需求非常有效的手段。网格技术提供了一个架构平
用户界面是软件系统的重要组成部分,占用了软件系统大量的开发时间。加之,信息技术的不断发展,以及计算机在人们的日常生活、工作与科研活动中的广泛应用,人们对用户界面的要求也
通过对Web日志进行挖掘,站点管理者可以发现用户的浏览模式,了解不同用户的兴趣和整个站点页面的访问情况,从而可以通过调整网站的逻辑组织结构来优化其拓扑结构。目前,一些
在高等院校理工科教学中,实验教学是整个教学过程中的重要环节,特别是基础课、专业基础课的实验教学在本科教学中尤为重要,它对学生的专业知识起着有效的支撑作用。   本论文