基于自适应图的半监督降维算法研究

来源 :安徽大学 | 被引量 : 0次 | 上传用户:sunrainnet
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在科学技术的带动下,人们获取信息、存储信息的方式都有了很大的发展,因此在很多领域中不可避免地出现了大量的高维数据。虽然高维数据中存在大量的信息,但并不是所有的信息都是有价值的,直接对其进行处理会带来诸多问题,主要体现在:计算比较复杂,需要更大的存储空间,识别精度不高等方面。数据降维是将高维数据映射到一个保持数据本身固有结构的低维子空间,能有效地解决上述问题,受到了研究者们的广泛关注。在现实应用中,获取足够多的标记样本是非常昂贵和困难的,相比较而言大量的无标记数据极易获取,在没有过多标签数据的情况下如若使用监督降维方法,可能导致模型产生过拟合;另一方面,如果使用无监督的方法,则忽略了有标记样本的价值。因此,半监督的降维方法得到了广泛的研究与应用。其中,基于图的半监督降维方法具有简单,容易理解等优势,获得了更多的关注。传统的基于图的降维方法需要预先定义一个图结构,后续的降维过程依赖于预先定义的图结构,也就是说降维过程与图结构的学习是分离开的,所以说学习到的图结构可能不是最优的图,从而导致最后的结果不理想。本文主要针对传统的基于图的半监督降维算法中存在的这个问题,做了相应的研究与改进。本文主要工作如下:(1)基于自适应结构化最优图的算法是利用有标记数据的类别信息,直观的为每一个已知标签的样本寻找近邻点,挖掘数据的局部结构信息,以防止噪声或者离群值点的影响;然后根据所有的训练数据去构造一个表示样本间结构信息的正则化项将监督的方法扩展到半监督领域,在这里,我们针对整个样本集合,采用自适应邻域学习的方法,对样本的近邻进行自适应的调整:同时我们希望学习到的图结构是稀疏的并且具有清晰的结构,即图中连接的组件数量恰好是数据样本的类别数,这种结构化图对于许多任务来说都是有益的,因为它包含了更为准确的数据信息,所以将结构约束加入到图结构中。在合成以及真实数据集上的实验结果验证了本文算法的性能。(2)在正交最小二乘判别分析的基础上提出了一种新的的自适应半监督降维方法,称为自适应弹性判别分析。该方法通过使同一类的数据点靠近该类的样本中心点来获取更大的类间判别分析,除此之外,我们依旧延续上一个方法中的自适应邻域思想来学习图结构,但是通常情况下,在使用自适应邻域来学习图结构的过程中,我们是采用线性投影来表示原始的训练样本和低维表示之间的关系,这对处理非线性数据来说,会存在一些不足,因此通过加入一个正则化项,可以放松线性投影约束,估计最接近线性嵌入的非线性流形,该方法在求出非线性嵌入的同时,又估计了一个能够直接作用于新样本的线性投影。最后,我们通过实验验证了在自适应邻域学习的基础上引入弹性嵌入思想的有效性。
其他文献
进入8月,从英国到德国,从法国到意大利,整个欧洲都在纪念第一次世界大战爆发100周年。当年的那场战争,引发了人类历史上前所未有的战祸,在血与火的打击下,没有任何一方能够称得上赢
报纸
从一则案例阐述如何确定查封期限。轮候查封转为查封登记后,如何确定查封期限未有明确的法律规定,不动产登记机构和法院对此有不同的理解和意见,这种理解上的不一致导致登记
<正>作为整个新能源汽车最下游的一环——充电基础设施,却是决定着电动汽车跑起来、跑出去的关键一步。但是目前,这一关键之步仍存在诸多痛点。"我们车站只有40多个充电桩,近
本文通过对4种不同铺层矩形混杂FRP管约束混凝土组合梁进行了三点抗弯试验,研究了不同铺层方式对构件延性性能的影响.从试验结果分析可得到如下结论:随着玻璃纤维层数增加,构
黄厚江老师的共生阅读教学是在其本色语文的基础上对阅读教学进行的新尝试,共生阅读教学强调站在学生立场,提倡阅读教学的生长性、灵活性、和谐性、交往性,以文本理解为基础、以问题探讨为引导、以语言活动为主体,旨在实现师生、生生、言意、形式与内容等多种教学要素的共生。本文结合黄厚江共生阅读教学课例,着重对黄厚江共生阅读教学的理念和方法展开研究。第一章概述了黄厚江共生阅读教学的基本理念及价值。共生阅读教学的价
为了研究鳀鱼蒸煮液和酶解液的风味特征,通过电子鼻、电子舌和固相微萃取(SPME)-气相色谱-质谱(GC-MS)联用技术,结合氨基态氮和可溶性肽含量分析鳀鱼蒸煮液和酶解液的风味物
传统方法很难对滚动轴承的早期微弱故障进行有效诊断.共振稀疏分解是一种基于多字典库的稀疏分解方法,可以同时分解出滚动轴承故障信号中的瞬态冲击成分及其持续震荡成分(工频
城市化既不是单一的城市发展,也不是单一的农村发展,而是二者的关联发展,其中文化整合是城乡关联发展的核心。目前,在城乡关联发展中存在着城市化破坏乡村文化、城市化冲击乡
入侵检测系统能够及时地发现并阻止攻击,有效地保证了网络安全。本文重点研究了入侵检测和人工智能的相关技术和算法,针对KDD Cup-99数据集中U2R和R2L类别,数据量不足,致检测准确率较低的问题,提出了一种基于遗传算法降维和改进MEA-SKohonen神经网络的入侵检测模型,旨在提高U2R和R2L类别检测的准确率,本文主要工作如下所示:(1)针对于入侵检测问题,选择无监督算法的代表Kohonen
<正>三菱化学公司常务执行役员福居雄一称新时代纺织产业的关键词是环保。大众对环保或可持续性的需求增长,如果能满足这一需求"就还有很大的成长空间"。该公司提出以"实现KA