【摘 要】
:
聚类作为一种无监督学习方法已广泛应用于模式识别、人工智能、数据挖掘、生物医学等领域。一般地,聚类是依据某种准则将样本点划分为不同的簇,希望经过划分相似的点在同一簇中,相异的点在不同簇中。至今,依据不同的准则己提出了许多聚类算法,虽然这些算法在一定程度上可以对数据进行划分,但仍然存在以下问题:(1)信息技术的发展增加了数据的规模及复杂度,数据的表征维度越来越高,处理信息冗余、几何结构复杂的高维数据是
论文部分内容阅读
聚类作为一种无监督学习方法已广泛应用于模式识别、人工智能、数据挖掘、生物医学等领域。一般地,聚类是依据某种准则将样本点划分为不同的簇,希望经过划分相似的点在同一簇中,相异的点在不同簇中。至今,依据不同的准则己提出了许多聚类算法,虽然这些算法在一定程度上可以对数据进行划分,但仍然存在以下问题:(1)信息技术的发展增加了数据的规模及复杂度,数据的表征维度越来越高,处理信息冗余、几何结构复杂的高维数据是聚类分析亟待解决的问题;(2)传统的聚类方法将二维(2D)数据预处理为一维(2D)向量的过程破坏了其原有空间结构,并且增加了计算成本。基于此,本论文重点探索适用于二维数据的聚类分析方法,对基于降维的聚类算法展开研究,提出了降维与聚类一体化特征表示方法。具体研究成果如下:1.本文提出二维稀疏模糊均值聚类(2DSFKM)算法。聚类算法在处理高维数据时需要对数据预先进行降维,但是传统方法往往将降维过程和聚类过程独立进行,使得降维后的特征难以进行精准的聚类,本文将降维过程和聚类过程融合到统一算法框架中,以寻找更好的子空间进行特征表示,并且进行动态联合优化。此外该方法分析了传统的模糊聚类方法直接将二维数据转换为一维高维向量破坏了原有的空间结构增加计算成本的问题,直接以二维数据矩阵作为输入,从而保留了底层结构信息;引入稀疏二次正则化以提高聚类算法对异常值的鲁棒性,并且解决了异常值会影响聚类效果的问题。2.由于上述方法只能得到算法的局部最优解,本文进一步提出改进并设计了一种二维稀疏谱聚类(2DSSC)算法。相较于传统方法中先学习相似度矩阵来表示空间的结构特征再对特征进行聚类,我们提出的算法将相似度矩阵学习和聚类融合在一个算法框架中,在动态迭代中实现样本特征的准确表达。其次,为了实现谱聚类中理想的邻域分配,使图中每一个样本只有一个邻接点,我们引入稀疏正则项对数据图谱进行结构正则化。同时,我们以二维数据的原始结构为输入,取代了传统的将二维矩阵拉伸为一维向量的数据预处理策略,将原始结构信息保留。论文在人脸数据集YaleB、物体图像数据集COIL20及手写数字图像数据集USPS等十余个数据集上进行聚类实验并与常见算法进行对比,定量化的实验结果表明本文提出的算法模型可以进行降维与聚类一体化的特征表示,动态自适应地寻找特征子空间,并且有效地保留二维数据结构信息,在精度、归一化互信息和纯度上都具有良好的聚类效果。
其他文献
近年来,文化翻译受到众多学者和译者的关注。乡土文学中的地方特色,不仅使得文学作品凸显地方风味,更会使得作品的文化价值得到提升。翻译乡土文学,既能让人们牢记地方文化,
新闻流行度预测是对新闻在未来时刻的点击量、评论数或者转发量的预测,通过对流行度的预测能够进行新闻质量评估,新闻排名,新闻推荐以及新闻检索等。新闻流行度的预测还能够缓解当今网络及社交媒体飞速发展带来的信息爆炸和信息过载问题。但是由于新闻存在时效性且生命周期较短为发布后的预测带来局限性,而发布前预测由于影响因素的多样性和难定义性也面临巨大的挑战。已有工作中对新闻进行发布前的流行度预测存在无法处理多源粗
GPU具备强大的数据并行处理与浮点计算能力,因而被越来越广泛地应用于数值模拟和科学计算等领域。但面对GPU的复杂硬件结构和完全不同于CPU的多线程编程模型,提高GPU上程序开发效率以及程序的性能就显得尤为重要,线程放置策略是其中重要的一环。线程放置策略比较复杂,传统的线程放置策略包括参考指导建议、穷举参数等。本文在程序静态信息和运行时信息基础上,使用机器学习算法建立了CUDA程序线程放置优化模型。
恶性胃溃疡在普通消化道内窥镜下早期诊治以及与良性胃溃疡的准确判断,直接关系到患者的生命安危。然而,这两类胃溃疡病变在临床表现上以及在普通消化道内窥镜成像特点上极为相似,在医生的实际诊断过程中非常容易发生误诊、漏诊的现象。采用深度学习的方法,开展胃溃疡良恶性分类识别算法的研究具有非常重要的理论研究意义和临床应用价值。本研究主要针对普通消化道内窥镜图像进行分析,利用Sobel算子以及HSV色彩空间转换
互联网的飞速发展,能够为用户提供海量信息,满足用户在信息化时代对信息的需求。然而,互联网在为用户提供海量信息的同时,也带来了信息超载的问题,导致用户难以在海量的信息中找到自己真正所需要的信息。推荐系统现已成为解决信息超载问题的有效途径,用户无需手动搜索,系统会根据用户的历史行为信息,分析用户喜好,根据用户的喜好向用户推荐用户可能会感兴趣的信息。在推荐系统的发展过程中,协同过滤算法以其独特的优势被广
在“健康中国”的时代背景下,人们对自我健康的重视程度不断提升,中国女性,尤其是城市职业女性更是如此。城市职业女性身兼数职,不仅要承担传统的如生育、哺乳、教育后代、家务劳动等主要家庭责任,还需在职场中承担与男性相类的社会责任,多重责任的负担导致其产生焦虑、失眠、抑郁等一系列亚健康问题。论文以城市职业女性的不同群体为研究对象,以人力资本理论、社会性别理论、知信行理论为理论基础,运用了定性和定量相结合的
党的十九大报告中明确提出构建政府为主导、企业为主体、社会组织和公众参与的环境治理体系。1排污单位自行监测制度的实施使环境责任主体得到新的界定。但是,排污单位对自行监测的法律认识不足,忽略作为义务主体的责任;责任主体划分标准模糊,相关规范缺失,自行监测数据得不到合理应用,浪费资源;对排污单位自行监测的监管也不到位,排污单位监测数据弄虚作假屡禁不止;自行监测的信息公开不充分,公众参与受限。这些问题导致
商业银行处于我国金融体系的核心地位,其稳健经营对于维护国家金融秩序的稳定起着至关重要的作用。一直以来贷款业务都是商业银行的核心业务,是其最为重要的赢利手段。近年来,随着商业银行信贷业务快速发展,商业银行不良贷款也持续攀升,给其正常经营带来诸多不利影响。商业银行在贷后管理过程中,需要持续面对信用风险带来的不良贷款管控压力。信用风险以其成因复杂、管理难度及影响程度大,现已成为商业银行贷后管理中面对的最
目前,我国已经进入老龄化时期,独居老人的数量也在不断增加。如何更好地对老年人进行照顾成为目前有待解决的重要问题。为了能够远程关注老人的状况,通常采用视频监控作为一种主要的监护方法。但是视频监护有一个弊端,即监护人需要实时关注视频中老人的状况,这样会分散监护人的注意力并影响他们的工作效率。因此对视频进行一定的处理并向监护人报告异常信息是非常有意义的。据研究表明,人在交流时面部表情可以传递约55%的信
《弦外之音》是玛丽·布雷登的重要作品之一,描写的是英国爱德华时期出现的一种唯物质主义现象,反映了当时出现在大众中的一种生活状况。该小说主要讲述了一个没落贵族女和诗