基于近邻集成保持策略的降维和分类方法研究

来源 :江苏大学 | 被引量 : 0次 | 上传用户:nanguo34
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
降维(DR)和数据分类是两个最重要的机器学习任务,用于许多模式识别应用,如人脸识别,医学成像,指纹识别,语音识别等。邻域保留策略应用在许多著名的算法中,例如邻域保持嵌入(NPE),局部保留投影(LPP)和k最近邻规则(KNN)。但是这些算法对参数设置非常敏感。例如NPE和LPP对邻域大小的参数非常敏感,这降低了降维的性能。此外,现有的多种DR方法通常利用单个图来保持邻域关系,这种区分不适合于多视图数据集的降维。此外KNN的分类性能受邻域大小k和现有异常值的影响很大。因此本文设计了基于近邻集成保持策略的降维和分类方法研究,旨在减少NPE,LPP和KNN中的上述近邻约束。
  在第一种DR方法中,我们提出了一种称为加权邻域保持集成嵌入(WNPEE)的新型DR方法。与NPE不同,所提出的WNPEE构造了多个近邻图的集成。通过近邻图的集成构建,WNPEE可以通过联合优化方式获得最优嵌入图的低维投影。对ORL,GeorgiaTech,CMUPIE和Yale四种人脸数据集的实验表明,WNPEE实现了比NPE和其他实验对比的DR方法更高的识别率。此外,与NPE和其他相关的DR算法相比,所提出的WNPEE对邻域个数参数的灵敏度降低,并且能够保留更多的高维数据的局部流形结构。
  此外,论文提出了第二种DR方法,称为基于集成图的局部保持投影(EGLPP)。EGLPP扩展了WNPEE的集合框架,以增强LPP的降维性能。相似地,EGLPP构造了一个相邻的邻接图集合,最后使用集成的嵌入图来优化低维投影。
  在WNPEE和EGLPP使用集合图嵌入框架的性能的推动下,我们最终提出了一种用于多视图数据集的广义多流形图集成嵌入框架(MLGEE)。MLGEE利用集成正则化项来考虑来自异构图的多流形信息,以考虑多视图数据分布的内在几何结构。针对EGLPP的四类人脸识别数据集和MLGEE对于手写数字识别,对象识别和人脸识别这六个多视图数据集的实验证明了本文方法相比其他DR技术,具有更好的稳健性。
  最后,论文提出了基于局部均值表示的调和近邻分类(LMKHNCN)来增强KNN分类性能。LMKHNCN考虑了基于距离的近邻度以及k近邻的空间分布。在LMKHNCN中,最初找到每类中的k个最近的质心领域,其用于找到k个不同的局部均值向量,然后用于计算它们去查询样本的调和平均距离。之后,将查询样本分配给具有最小调和平均距离的类。对26个现实的数据集的实验结果表明,所提出的LMKHNCN分类器实现了较低的容错率,特别是在小样本情况下。此外,与相关的四个基于KNN的分类器相比,LMKHNCN对参数k的敏感度非常低。
其他文献
随着全球能源需求的增长和环境污染问题的加剧,光伏发电已经成为新能源利用的主要方式。光伏并网逆变器作为连接光伏阵列与交流电网的关键环节,其工作的稳定性和可靠性直接影响着光伏发电效率和电网安全运行。严苛复杂的工况、频繁的通断切换导致光伏逆变器主电路中的功率器件成为故障高发部件。当电路出现异常工作状态时,根据故障信息及时判断出故障位置并启动保护和容错运行机制,对于提高系统效率和减少经济损失具有重要意义。
期刊
目的探讨孕早期焦虑和抑郁对妊娠期糖尿病(gestational diabetes mellitus,GDM)的影响。方法采用前瞻性研究,于2017年通过立意抽样方法选取四川省妇幼保健院产前门诊1426名孕8~14周单胎健康孕妇为研究对象,年龄为(28.6±4.0)岁。通过问卷调查收集其年龄、孕前体重、产次、孕次等基本信息,分别采用焦虑自评量表(self-rating anxiety scale,S
停顿是口译活动中十分常见的现象,并非所有的停顿都应该去除。适当停顿可以吸引听众的注意力,有利于沟通,而不当停顿则会影响口译的流畅效果和信息的传递效果,并且造成了时间上的延误,同时影响听众的理解,甚至影响听众对译语以及译员的信任度,因此应当尽可能避免与克服。本文以“伊恩·牛顿教授全球难民问题座谈会”模拟会议的口译为例,对源语和译语进行转写,同时参考相关文献,通过分析对不当停顿的现象进行分类,并研究其
研究表明,关键蛋白质的识别不仅有助于理解细胞的生长调控过程,也有助于进行疾病研究和药物设计。但是通过生物医学实验的方法成本高、效率低。随着高通量技术的发展,可以获得越来越多的蛋白质相互作用数据,这让我们能够从网络水平上识别关键蛋白质。目前为止,越来越多的基于网络水平的方法被提出,但是由于蛋白质相互作用网络中包含了大量的假阴性和假阳性数据,它们的识别准确度依然需要提高。针对这些问题,本文开展的主要工
本论文以高维数据压缩与恢复为研究背景,通过阐述香农采样理论到稀疏表示和压缩感知理论再到低秩矩阵恢复理论的发展历程,引出与低秩矩阵相关的的近似函数及分解形式、数学模型和优化算法,并用于解决计算机视觉和机器学习中的图像分类、矩阵补全和子空间学习等问题。注意到核范数是秩函数最紧致的凸近似,在某些特定条件下能以较大概率恢复出低秩矩阵来。但不幸的是,这些方法会因矩阵的秩较大而得到有偏的低秩解,也会因奇异值分
学位
近年来,随着计算机和互联网技术的快速发展,人们可以很容易地获取海量的数据。这些数据往往是高维的、复杂的,并且包含了大量的噪声和冗余信息。因此,如何实现高维数据的低维表示并探索其本质结构,是十分具有挑战性的问题。低秩表示(LRR)算法作为模式识别、机器学习、计算机视觉等领域的重点研究课题,能够有效地发现高维数据的低维子空间结构和数据中噪声的结构特点,目前已被广泛应用于子空间聚类、半监督学习、目标跟踪
学位
目的:总结上海市6家医院2010年早期胃癌手术率,并做相关分析。方法:回顾分析上海瑞金医院等6家医院2010年胃癌手术治疗例数及经病理学检查证实的早期胃癌例数和淋巴结转移例数。结果:1085例手术治疗的胃癌患者,早期胃癌233例,早期胃癌手术率20.55%;早期胃癌腹腔淋巴结转移30例,转移率13.45%。结论:2010年上海6家医院的早期胃癌手术率为20.55%,较前有所提高;分析总结了早期胃癌
随着NAND闪存芯片存储密度的提高,数据存储的可靠性已经成为大容量闪速存储系统研究及应用面临的重要问题。等级调制方案利用单元间电荷值的相对等级所形成的置换而不是单元电荷绝对值来表示数据,可以避免闪存单元的过度编程问题,并且降低闪存中非对称错误的影响。基于等级调制方案的置换码(Permutation code)和多重置换码(Multi-Permutation code)能够缓解闪存的过度编程和电荷泄
EMD(EmpiricalModeDecomposition,经验模态分解)算法是由美籍华人黄鄂于1998年提出来的一种新型的自适应时频分析方法,该方法基于信号局部特征,对于非平稳、非线性信号的处理具有特有的优势。与传统的以线性和平稳假设为基础的傅里叶分析、小波变换等时频分析方法相比,EMD算法在处理非平稳、非线性信号时展现出了独特的性质,在理论研究和工程应用上都有着重要的研究价值。肺音信号处理是