面向高维数据的聚类算法研究

来源 :中国科学院大学(中国科学院西安光学精密机械研究所) | 被引量 : 3次 | 上传用户:lulei81331502
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
数据聚类作为数据挖掘的重要组成部分,得到了广泛的研究和发展。与有监督的分类相比,聚类算法通常属于无监督学习的范畴,没有先验信息可以帮助我们对数据进行分析,这也增加了数据聚类的难度。聚类分析通常根据给定的相似性度量方式,计算不同数据之间的相关性,然后将数据分为不同的类别。聚类分析技术不仅可以挖掘数据之间的内在联系,揭示数据的分布特性,还可以作为数据的一种预处理方式,便于后续的数据分析任务。经过几十年的发展,研究学者提出了大量的聚类算法,并将聚类算法成功应用于机器学习、模式识别、计算机视觉、数据压缩和图像处理等领域。然而,随着信息技术的发展,数据的维度在不断增加,传统的聚类算法将面临以下挑战和问题:1)高维数据包含大量冗余的、不相干的信息,数据之间的差异性可能是由部分特征子集导致的,直接对高维数据进行聚类,会降低算法的性能;2)高维数据通常存在于多个低维子空间中,传统的距离度量方式不再适用于高维数据;3)传统的聚类算法本身就存在稳定性较差的问题,对于高维数据,更是难以满足高稳定性的需求。因此,研究面向高维数据的聚类算法是一项非常有意义并且有挑战的课题。近年来,学者们主要从特征选择、子空间聚类、聚类集成三个方面开展了高维数据聚类算法的研究,提出了许多有效的聚类算法,但仍存在以下问题:1)对特征之间的相关性利用不充分;2)忽略了噪声以及表达矩阵的结构特性对子空间聚类的影响;3)忽略了初始聚类结果所包含子类之间的结构信息和判别性信息。针对上述问题,本文从四个方面开展了高维数据聚类算法的研究,主要的研究内容和贡献点如下:(1)基于结构保持的特征选择算法。本文采用自表达模型探索特征之间的相关性,不需要学习数据的伪标签矩阵,因此避免了噪声的引入。此外,本文在自表达模型中引入了结构保持约束,使得特征选择后的数据能够保留原始数据空间的局部流形结构,从而选出更具代表性的特征。对于构建的特征选择模型,本文采用了一种有效的迭代优化算法对其优化求解,并对优化算法的收敛性进行了理论证明。(2)基于柯西损失函数的子空间聚类算法。真实的数据通常是被噪声污染的,而且噪声具有复杂的统计分布。如果不能对数据中的噪声进行合理的约束,会影响表达矩阵的学习,从而降低子空间聚类算法的性能。为此,本文利用柯西损失函数对噪声项进行约束,因为柯西损失函数的影响函数有一个上界,所以可以降低单个残差估计对算法整体性能的影响,从而对较大的噪声进行抑制,提高聚类精度。(3)基于块对角结构的子空间聚类算法。在理想情况下,表达矩阵应该具有块对角的结构,即同一个子空间中的数据具有较大的相关性,不同子空间的数据之间相似度为零。因此,本文通过引入拉普拉斯秩约束来捕获表达矩阵的块对角结构。进一步,考虑到表达矩阵的值代表数据之间的相似度,具有非负的特性,所以本文在目标函数中添加了对表达矩阵的非负约束,从而构建的模型可以理解为一种特殊的非负矩阵分解问题,倍乘迭代算法可以对模型进行有效的求解。(4)基于集覆盖问题的聚类集成算法。该算法首先将聚类集成问题转化为一种特殊的集覆盖问题,然后构建了一个基于拉普拉斯正则的目标函数来捕获子类之间的结构信息。此外,为了探索初始聚类结果中包含的判别性信息,本方法在目标函数中引入了判别性约束,使得选出的子类有较大的差异性,从而提高聚类集成结果。
其他文献
<正>为贯彻党的十八届五中全会精神和推动工业生态文明建设,努力将"创新、协调、绿色、开放、共享"五大发展理念落到实处,需要坚决推动绿色发展,促进产业转型升级。在中国进
会议
交往需要是当今人们社会生活中最基本的组成部分,邻里之交的沟通交往不仅能够达到感情的互动,而且能够舒缓紧张的生活情绪.居住小区作为人们日常生活中最为重要的生活环境,是
根据淬回火弹簧钢丝探伤收放线系统的组成及控制特点,分析控制系统的I/O需求,选取系统的硬件配置。根据放线机、牵引机、收线机的运行特点,通过张力控制器的设计和各变频器给
对比近几年国内外钢丝绳专业书籍、查询国内期刊钢丝绳相关文献,对国内钢丝绳制造企业技术人员而言,评价标准规定钢丝绳配丝是否合理,清楚现有资料钢丝绳结构参数求解过程,洞
针对目前螺丝锁付机器人作业对夹具定位工件精度要求高,不能自行校正工件孔位偏差等问题,分析工件偏差产生机理,结合HexSight图像处理软件,提出基于视觉定位的偏差补偿算法,
在钢丝在线电解磷化生产中,采用数字高频脉冲电源,可以输出高频直流脉冲电压和电流。在高频直流脉冲电压的作用下,磷化液浓度极化降低,阴极电流密度和沉积速度提高,得到致密
航空航天部件制造和装配中,叠层材料得到了广泛的使用.叠层材料通常使用钻削方式进行制孔.钻孔过程中产生的层间毛刺严重影响装配的质量,去除层间毛刺消耗额外的时间和成本.
采用Formastor-FII全自动相变仪对72A帘线钢盘条进行连续冷却试验,采用膨胀法测得钢的临界相变点。对不同冷却速度下的试样,用光学显微镜观察试样组织,用显微硬度仪测定维氏
针对数控车床开机加工精度不稳定,文章提出通过API主轴热变形分析仪、雷尼绍激光干涉仪等仪器对机床主轴热变形、丝杠热变形引起的定位误差进行测量分析,找出导致机床热变形较