【摘 要】
:
数据挖掘是从大量数据或数据库中挖掘出有价值信息的学科,已经在诸多领域得到了应用。而聚类分析作为数据挖掘中一种不可替代的挖掘技术,同样得到广泛应用,聚类分析根据相似性将样本分为不同的簇或子集,使得不同簇中的样本具有很大的差异性。近年来,核方法因其在非线性模式分析任务中的优势,被广泛用于聚类任务中,但是核聚类的性能很大程度上依赖于核函数以及参数的设置上,因此产生了多核聚类方向,近几年来,基于多核聚类的
论文部分内容阅读
数据挖掘是从大量数据或数据库中挖掘出有价值信息的学科,已经在诸多领域得到了应用。而聚类分析作为数据挖掘中一种不可替代的挖掘技术,同样得到广泛应用,聚类分析根据相似性将样本分为不同的簇或子集,使得不同簇中的样本具有很大的差异性。近年来,核方法因其在非线性模式分析任务中的优势,被广泛用于聚类任务中,但是核聚类的性能很大程度上依赖于核函数以及参数的设置上,因此产生了多核聚类方向,近几年来,基于多核聚类的方法也得到了研究人员广泛关注,并在这一领域不断取得进展,本文工作是基于多核聚类算法的研究。我们发现现有的大多数基于多核聚类的算法大多没有充分考虑局部流形结构,但是局部流形结构的刻画对聚类性能提升是很重要的。针对这个问题,本文提出了两种基于局部学习的多核聚类算法,并在此基础上开发了一个多核聚类算法分析系统。具体的工作内容描述如下:(1)提出基于流形自适应的多核K-Means算法(MAMKKC)。基于K-Means的多核聚类算法旨在通过对一组核的集成来提高核K-Means聚类的性能。然而,现有的多核K-Means算法大多利用核内的非线性关系,而多核空间中的局部流形结构并没有得到充分的考虑。本文采用流形自适应核代替原核,对核的局部流形结构进行集成。因此,诱导的多流形自适应核不仅反映了非线性关系,而且反映了局部流形结构。另外还提出了一种求解最优解的迭代算法。实验结果表明,在多个基准数据集上,该方法优于许多先进的算法。(2)提出基于最优邻域的多核概念分解算法(ONMKCF)。该算法是一种新的用于数据表示和聚类的多核概念分解算法,首先,在多核框架下,扩展核概念分解,以达到缓解核概念分解中存在的核选择问题。然后考虑到核空间中的非线性关系没有捕捉流形,因此我们从多个核诱导的多个候选图中学习最优邻域图来反映流形的内在结构。同时,对多候选图矩阵的拉普拉斯矩阵施加新的秩约束,使得得到的多候选图矩阵中的连通分量正好等于聚类数。另外还提出了一种求解最优解的迭代算法。实验结果表明,在多个基准数据集上,该方法优于许多先进的算法。(3)设计并开发了一个多核聚类算法分析系统,该系统包括数据集选择、多核聚类算法选择以及算法结果展示等功能,本系统集成了本文提出的两个算法以及对比算法,系统可以通过选择不同的数据集进行实验,具有良好的可用性。综上,本文围绕多核聚类中存在的问题,提出了两个基于局部学习的多核聚类算法。聚类分析不管是对于理论还是对于实际应用方面,都有着其不可替代的作用,所以本文提出的两个聚类算法都是有一定的意义和价值的。
其他文献
随着智慧司法服务的快速发展和广泛应用,对司法文书的分析与挖掘已引起越来越多的关注,命名实体识别(NER)作为司法领域研究中的一项基础性任务,它能为司法知识图谱构建、法律判决预测和机器阅读理解等一系列的研究工作提供重要的知识。命名实体识别旨在识别出文书数据中的实体指称项,并标明其实体类别。近年来,许多命名实体识别的研究工作均基于深度学习、神经网络模型等,但专门针对司法领域实体识别的研究还相对较少。目
大数据时代,实际应用领域搜集到的数据往往呈现出更多复杂特性,作为一种较多见的数据形式,区间型数据在金融、气象、农业等诸多领域广泛存在。尽管对于区间型数据的表示、分析、挖掘已有一些研究,但大多数研究都是针对静态区间型数据,对于实际应用中随时间不断更新的动态区间流数据,目前的研究还相对较少。由于区间流数据所具有的时序特征,传统静态区间型数据的分析挖掘方法往往不能直接使用。针对这个问题,本文提出一种基于
随着现代信息技术和移动互联网的发展,信息量以惊人的速度产生和传播,面对数不胜数的信息量,人们难以在短时间内筛选出有用信息。为了帮助用户在节省时间的同时寻找到有用信息,推荐系统应运而生,并得到迅速发展。传统推荐算法通常认为用户兴趣随时间推移是稳定不变的,然而,在真实场景中,随着时间的变化,用户兴趣偏好不断发生改变,新产品的出现、季节的交替、流行趋势的变化等均会影响用户的选择。因此,如何从历史行为数据
随着“互联网+”在教育领域的不断渗透,在线学习平台丰富的学习资源为人们获取信息提供了新的契机。但学习资源的多样性和广泛性导致数据呈指数级增长,致使平台用户难以获取满足自身需求的资源。为了追求平台的用户访问量和学习资源点击量,个性化学习资源推荐算法应运而生。它可根据学习者的行为日志挖掘和推送满足自身需求的学习资源,从而达到“个性化推荐”的目的。然而随着在线学习平台数据海量聚集,资源过度膨胀,传统推荐
孤立点检测作为大数据研究中的一项重要技术,在网络监测、电信和信用卡欺诈、金融证券服务等各大应用领域中都发挥着巨大的作用。孤立点检测的目的在于找出一个数据集中与大多数对象行为显著不同的一部分对象。在众多的孤立点检测方法中,基于聚类的方法因其不需要预先知道数据集的分布和参数少等特点而脱颖而出。但是目前基于聚类的孤立点检测方法中,一部分方法仅通过优化聚类算法来提升孤立点检测的效果,另一部分仅聚焦于簇内孤
近年来,自然语言处理的重心已逐步从句法处理研究转移到语义分析研究中,语义知识库的构建至关重要。汉语框架语义知识库(CFN)已具有一定的规模,但词元库的低覆盖率问题比较严重。CFN现有动词6175个,与现代汉语词典中的17788个动词相差甚远。CFN词元库主要是通过翻译Frame Net已有词元构建的,不可能包含中文所有词语,故需要不断的扩充词元完善CFN词元库。当使用CFN在大规模真实文本中进行框
推荐系统在电子商务和服务型移动终端的应用越来越广泛,使得人们的生活越来越便利。在电子商务网站或论坛中,存在大量蕴含用户对项目某些方面的相关评论,若将这些评论进行细粒度情感分析,既可作为可解释推荐系统中用户对项目评分的依据,又可给出推荐结果的解释原因,从而帮助用户更好地理解推荐结果,提升用户的满意度。因此,本文以项目评论数据为研究对象,通过分析评论中多个对象的细粒度方面项情感极性,进而基于用户在方面
近年来,深度学习在机器视觉,如目标识别与检测,自然语言处理等领域取得了巨大的成功,可以说深度学习推动了人工智能的大跨步发展,解决了很多复杂的模式识别任务。然而深度学习模型常被人称为“黑箱”,即模型学到的表示很难用人类可以理解的方式来提取和呈现,这极大的限制了深度学习的发展,特别是在自动驾驶、金融和医学等领域利用深度学习进行关键决策时,我们往往需要算法具有极大的可靠性。在视觉处理居功至伟的卷积神经网
信息技术在各个领域中的重要性日益凸显出来;而教育行业也在社会的科技化变革中取得了重大的成果。“计算机触控技术+教育”的飞速发展衍生出了大量的媒体教学产品,例如:双屏电子黑板、纳米黑板和电子白板等。在黑板推广调研中发现,在课堂中老师主要采用对学生的观察和提问与学生进行交互,必然会因个人经历的不同导致获取全体学生的学习反馈以及学习状态信息也不同,最终导致无法达到预期的教学效果。针对上述问题,在双屏电子
以森林土为生长基质和开顶生长箱(Open-Top Chambers, OTCs)的近自然法,选择亚热带造林树种大叶相思(Acacia auriculiformis)、红锥(Castanopsis hystrix)、樟树(Cinnamomum camphora)、枫香(Liquidambar formosana)、海南蒲桃(Syzygium hainanense)的一年生树苗构建实验林,探讨了土壤有