基于鲁棒对偶概念分解的聚类方法研究

来源 :山西大学 | 被引量 : 0次 | 上传用户:wzhyskoa
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着信息化时代的飞速发展,海量数据的有效收集和获取成为关键。数据挖掘作为当今信息时代快速发展的一个重要领域,它逐渐普及应用到各个行业。聚类分析则是处理数据挖掘问题的有效手段之一,通过对海量数据的划分,使数据样本之间潜在的联系表现出来。在聚类分析中,矩阵分解通过数据降维,将高维矩阵的问题分析转换成几个低秩矩阵的问题分析,有效的提升了聚类的效果。本文我们主要根据概念分解的相关知识,增加了函数的对偶性和鲁棒性等内容进一步展开研究。针对概念分解在聚类分析时函数的对偶性,鲁棒性问题,我们提出两个相应的关于对偶概念分解的算法,具体如下:(1)提出基于正交对偶的概念分解算法(ODCF)。该方法的是在非负矩阵的基础上,去除非负约束因素对实验结果的影响。因为在处理实际问题时,数据的非负性常常难以得到保证,非负约束因素会导致问题的研究变得局限性。于是考虑到概念分解,并且由原来只研究样本方面的单个聚类变为了研究样本方面和特征方面的对偶聚类。除此之外,我们添加了两项正则项,通过对数据的压缩,使得数据的近似度进一步提高。经过大量的实验证明,该算法在基准数据集上的聚类效果要比其它同类型的算法更有优势。(2)提出基于局部敏感的鲁棒对偶概念分解算法(DRCF)。该方法在对偶概念分解的基础上,考虑到噪声因素对聚类结果的影响。由于噪声污染对聚类结果的影响是不可忽略的,在大噪声部分误差的损失也较大,于是我们引入半二次最小化损失函数。该函数在解决大误差部分有较好的鲁棒性,充分的考虑到噪声因子的作用,使得在一定的范围内,函数对噪声因子的影响较为不敏感,函数的鲁棒性也较好。经过大量的实验证明,该方法在三个聚类指标上都要优于一些先进算法。综上,本文围绕概念分解中函数的对偶性,鲁棒性问题展开研究。先是考虑能否在样本侧和特征侧同时构建概念,通过这种方式对数据进行压缩,对数据的近似程度和聚类效果会更好。进而我们考虑到噪声因素的影响,为了降低噪声污染对聚类结果造成的影响,我们在样本侧和特征侧添加了鲁棒图正则,使得我们的方法的鲁棒性和聚类效果更加显著。本文中提出的两个对偶聚类方法不管是在学术研究领域,还是实际应用时,都具有很大的研究价值。
其他文献
信息技术在各个领域中的重要性日益凸显出来;而教育行业也在社会的科技化变革中取得了重大的成果。“计算机触控技术+教育”的飞速发展衍生出了大量的媒体教学产品,例如:双屏电子黑板、纳米黑板和电子白板等。在黑板推广调研中发现,在课堂中老师主要采用对学生的观察和提问与学生进行交互,必然会因个人经历的不同导致获取全体学生的学习反馈以及学习状态信息也不同,最终导致无法达到预期的教学效果。针对上述问题,在双屏电子
以森林土为生长基质和开顶生长箱(Open-Top Chambers, OTCs)的近自然法,选择亚热带造林树种大叶相思(Acacia auriculiformis)、红锥(Castanopsis hystrix)、樟树(Cinnamomum camphora)、枫香(Liquidambar formosana)、海南蒲桃(Syzygium hainanense)的一年生树苗构建实验林,探讨了土壤有
数据挖掘是从大量数据或数据库中挖掘出有价值信息的学科,已经在诸多领域得到了应用。而聚类分析作为数据挖掘中一种不可替代的挖掘技术,同样得到广泛应用,聚类分析根据相似性将样本分为不同的簇或子集,使得不同簇中的样本具有很大的差异性。近年来,核方法因其在非线性模式分析任务中的优势,被广泛用于聚类任务中,但是核聚类的性能很大程度上依赖于核函数以及参数的设置上,因此产生了多核聚类方向,近几年来,基于多核聚类的
机器阅读理解作为自然语言理解的关键任务,受到国内外学者的广泛关注。其意义在于使机器具有理解文本语义的能力。本文重点关注机器阅读理解中的多项选择题任务,即给定文章、问题和选项,要求根据文章内容回答问题,从多个选项中选择最佳选项。然而这些选项通常不是直接来自文章片段,其需要根据文章内容进行总结归纳或推理才能得出正确答案,存在更艰巨的挑战。因此,本文旨在面向高考阅读理解中的多项选择题进行研究,主要的工作
多项选择型阅读理解任务作为机器阅读理解的子任务之一,近年来受到国内外研究者的广泛关注。现有多项选择型阅读理解数据集多为英文语料,且数据集文章覆盖领域及回答问题所需推理能力单一,而高考语文中文章覆盖领域多样、问题复杂。因此,面向高考语文阅读理解的研究任务具有较大的挑战性。本文以2018年国家重点研发计划项目子课题“文本生成及复杂语言问题求解关键技术与系统”为背景,针对高考语文中现代文多项选择题展开研
目前,精神疾病的精准诊断是脑科学中最主要的研究课题。由于精神疾病(比如精神分裂症、分裂症情感障碍和双相情感障碍等)有许多重叠的临床症状,因此基于症状的主观诊断很容易导致精神疾病被误诊为其它相似的疾病从而影响疾病的治疗。利用脑影像(如脑核磁共振成像)探索精神疾病的机制和客观指标,利用数据挖掘的手段用客观影像学测度来定义精神疾病的类别是推动精神疾病精准诊断的必经之路。本论文针对这两个方面展开研究,分别
个性化推荐技术在生活中已被广泛的应用。近年来已提出的推荐算法虽然其推荐性能有了显著提升,但是模型越来越复杂,导致出现了大量的黑盒模型。然而,黑盒模型却存在可解释性差的问题,可解释性推荐是解决此问题的有效手段,其不仅可以为用户提供推荐还可以对推荐的物品做出解释,使用户了解为什么推荐此物品,增加用户的信任度和满意度,从而提高推荐系统的精准度和说服力。所以,推荐系统的可解释性问题变得尤为重要。目前,嵌入
框架关系是汉语框架网(Chinese Frame Net,CFN)中的一种重要资源,它用来描述框架与框架之间的语义关系,从语义场景角度为篇章框架语义单元之间建立关联,为篇章语义理解提供了一种框架语义特有的方式,便于计算机理解篇章语义。中文词之间的关系研究缤纷复杂且与框架关系研究存在差异,因此CFN的框架关系继承使用了Frame Net的框架关系。汉语语义丰富繁多,CFN中会存在框架间关系缺失的问题
计算机断层成像技术(Computed Tomography,CT)在医学成像中的应用十分广泛。但是扫描过程中射线对人体的辐射给病人带来了潜在的致病危险,因此低剂量CT已经成为当前研究热点。实现低剂量扫描有两种策略:一是在每个角度下采集投影时降低管电流强度,二是以稀疏采集的方式减少投影个数。策略二对应的重建方法就是CT稀疏重建。但是,如果使用传统的解析法,如滤波反投影算法,稀疏重建后的图像当中包含严
图像在传输、存储等过程中不可避免地会发生图像质量下降的问题,这对于后续的图像处理带来了巨大的挑战。通过自动判定图像质量,避免将低质量的图像引入图像处理系统中,将在很大程度上缓解或避免上述问题。因此,图像质量评价算法作为图像工程的关键环节具有重要的研究意义和应用价值。全参考图像质量评价(Full-Reference Image Quality Assessment,FR-IQA)方法作为图像质量评价