面向高维多流形数据的聚类问题研究

来源 :山西大学 | 被引量 : 1次 | 上传用户:star225
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
流形学习自2000年首次被提出来后,因其假设数据具有局部欧氏空间的性质,被广泛应用于高维数据的降维和数据的可视化研究。目前,经典的流形学习方法针对的都是均匀的、单流形的、非相交的简单结构的数据,而真实的数据分布可能是具有不均匀的、多流形的、有相交区域的复杂结构的高维数据,而这些数据广泛存在于金融、医疗、天文等领域,因此,对于多流形数据开展相关研究具有很强的现实意义。本文就多流形数据的分类问题展开研究。具体体现为:(1)本文提出了一种基于密度和数据几何结构的相交多流形聚类方法DC_MPPCA算法。该算法针对基于密度的多流形聚类算法无法处理相交多流形的问题,在基于密度构造点和点之间数据关系时,运用MPPCA算法将多流形数据分块,以保证不同流形上的样本在不同块中,再分别判断各个块是否位于同一流形上,由此分类了相交多流形数据。该算法在人工数据和真实数据上取得了较好的实验效果。(2)Tensor Voting是一种基于局部的能够准确描述出相交多流形数据的几何结构的方法。本文基于Tensor Voting提出了TMMC算法,该算法不仅可以有效识别出多流形数据中的相交区域,且可以通过相交区域的中心点来将相交区域中的点划分到周围相对应的非相交区域中,进而可以准确地求解出每个点的法向量,最终我们通过求解相邻点之间的切空间偏差来构造数据的几何相似性矩阵,利用谱聚类的思想来将相交多流形数据分类开来。该算法可以较准确地描述和有效解决相交多流形问题。在人工数据和真实数据上的实验,验证了该算法的有效性。(3)设计了一款“基于MATLAB的流形学习方法可视化展示系统”。该系统内嵌了多种经典的人工数据集和流形学习算法,不仅可以可视化展示而且可以进行个性化的算法比较。另外,该系统具有极强的可拓展性,无论数据集还是算法都可以按需添加,且具有一定的人机交互功能。
其他文献
从《北方的纳努克》诞生起,纪录片就带有强烈的故事化倾向,尽管关于“故事性”和“真实性”的对立讨论一直此起彼伏,但在影视产业日趋商业化的助推下,富有趣味性、观赏性的“
面对中国传统文化的巨大同化作用,佛教在唐代呈现出明显的民众化倾向。本文首先分析了唐代长安寺院的发展和分布情况,然后从建筑设计、佛塔、佛像等三个不同角度探讨了唐代佛
流形学习是机器学习与数据挖掘领域的一个重要研究方向。其研究目的在于揭示隐藏在高维数据集中的内在低维结构,从而能够重构并进行非线性维数约简或者实现数据的可视化。经
生物可降解聚多肽纳米载体具有优异的安全性、生物降解性和多样的结构功能,现已被越来越多地用于抗肿瘤药物的递送。临床结果显示聚多肽纳米药物能在很大程度上减小药物的毒
一个国家的影响力,不仅体现在经济总量上,更体现在价值观上,体现在对生命的敬畏上,体现在公民的尊严上,包括对死亡的选择,对病人和死者尊严的维护。$$   “一个伟大国家的尊严
报纸
开关电源作为电子系统中重要的能量提供设备,对其健康状态进行准确的监测与评估,是保障系统高效运行的关键。因此,对开关电源开展测试性设计与相应的故障诊断研究,提升其状态
精益成本管理是当今世界上制造类企业公认的、最有效的生产管理方式,着眼于帮助企业消除浪费、优化流程结构和不断完善产品质量,其思想精髓就在于如何控制产品成本和提高产品
根据行为获得的途径,动物的行为大致分为先天性行为和学习行为两大类。教材中有一小资料:“在T形迷宫的一臂安上电极,而另一臂是潮湿的暗室,其中还有食物,当蚯蚓爬到安有电极的一
期刊
从鸡心、鸡血中提取抗氧化物,并分别利用邻苯三酚(PR)自氧化法、碘量法对其活性进行了检测。结果表明:鸡心提取物比鸡血提取物的抗氧化活性强。
新时代中国经济发展要求高质量的内涵,科技型新创企业成为创造新供给、释放新动能的重要载体,同时也成为经济高质量发展的重要微观组成。但受到国际贸易争端升级、全球金融环