基于主动学习的高维数据聚类算法研究

来源 :福州大学 | 被引量 : 1次 | 上传用户:jojoyks
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着信息技术的发展,各个应用领域所需要处理的数据的维数越来越高,通常能达到几百维,甚至是上千维。普遍存在的高维数据,使得高维数据分析有非常重要的意义。聚类分析是一项重要的数据挖掘任务,然而高维数据具有“维度灾难”的问题,导致很多传统算法对高维数据进行聚类的效果不理想。近些年,研究者们发现了高维数据空间下存在Hubness现象,可以用来对高维数据进行聚类分析。Hubness现象的特征为:实例的Hubness值越高,即Hub实例,就越倾向于接近聚类的中心,而且数据的维数越高,这种倾向就越加明显。本文研究了这种Hubness现象对现有的一些聚类算法、主动学习算法的影响,具体工作如下:首先,对应用于高维数据的聚类算法K-Hub进行了研究。原始的K-Hub聚类算法对初始聚类中心的选择非常敏感,由于其随机选择初始聚类中心进行聚类,所以聚类结果有时比较差。针对这种情况,我们提出一种基于主动学习的K-Hub聚类算法,主动地从原始数据集的高Hubness实例中学习K个等价类,并从这K个等价类中选择实例作为初始聚类中心,使得K-Hub聚类算法的初始聚类中心属于不同类。实验结果表明,这种方法能够提高K-Hub的聚类准确率。其次,对基于ASC的主动学习策略进行了研究。它首先在数据集上建立一个K近邻图,然后利用K近邻图边的权值计算实例对区分不同类的能力(Ability to Separate between Clusters,ASC),并选择ASC值较高的实例对进行学习。但是当多个实例对的ASC值相同时,这种策略并不能确定选择哪一对实例进行学习。为了解决这个问题,当有多个实例对的ASC值相同时,我们利用这些实例对所共享的K近邻实例的Hubness值来确定选择哪一个实例对进行学习。实验结果表明,这种方法能学习到更有价值的关联限制,提升聚类准确率。最后,在前两章的基础上,提出了一种两阶段的基于Hub的主动学习策略。第一阶段主动地从数据集的高Hubness实例中学习K个等价类,用于选择初始聚类中心,第二阶段利用改进的基于ASC的主动学习策略学习类边界实例的关联限制,这样主动学习可以同时得到类中心和类边界实例的关联限制,能有效的提升聚类准确率。
其他文献
供应链契约协调是供应链协调的一种有效的协调方式。考虑决策主体的过度自信后,对供应链契约协调进行研究更有现实意义。为探索决策主体过度自信时,收益共享契约的参数变化以
高效的多址接入是提高网络吞吐量,降低信道随机接入碰撞的有效方法,现有的载波侦听等传统方法,仍然存在效率较低,网络吞吐量不高等缺陷。本文研究了基于压缩感知的多址接入方
随着移动互联网的快速发展、移动智能终端的普及化,移动智能终端产品在给用户带来便利的同时也获取大量的用户原始数据。这些原始数据蕴含着移动用户的兴趣偏好、运动轨迹和
2013年全球著名公司谷歌推出了新一代视频编解码标准VP9。VP9视频编解码一经推出,就受到产业界的广泛关注。越来越多的厂商开始支持VP9,国外互联网视频中采用VP9编码技术的数
An omnidirectional vision has the ability to obtain larger field of view and richer information of environment than normal view vision,and has wide applications
评价关系抽取是情感分析的基础任务,它旨在抽取网络评论文本句中的评价对象以及评价词。目前国内外已开展了许多相关研究,并取得了一定的研究成果。但是现有方法还存在评价对
中国软件行业的发展一直滞后于发达国家,整个行业到目前为止也没有成熟的规模比较大的企业,大多数软件企业的规模都在千万级别以下。在另一方面,软件行业的发展对经济社会发
当前,全国各省积极推进中等职业教育师资管理标准化、制度化、信息化快速发展。在此背景下,根据教育管理信息化要求,甘肃省教育部门组织研发全省中等职业学校教师信息审核管
基于组相似的活动轮廓模型(Active Contours With Group Similarity,ACGS)在C-V模型的基础上结合了矩阵的低秩约束条件,能较好地分割目标特征缺失或错误的同质相似图像组,但
由于高品质因子、小模式体积,以及良好的机械稳定性,回音壁模式光学谐振腔得到了广泛的关注。如何确保谐振腔的有效耦合,是实现回音壁模式,并获得有效输出的重要环节。本文以