论文部分内容阅读
在科学技术的带动下,人们获取信息、存储信息的方式都有了很大的发展,因此在很多领域中不可避免地出现了大量的高维数据。虽然高维数据中存在大量的信息,但并不是所有的信息都是有价值的,直接对其进行处理会带来诸多问题,主要体现在:计算比较复杂,需要更大的存储空间,识别精度不高等方面。数据降维是将高维数据映射到一个保持数据本身固有结构的低维子空间,能有效地解决上述问题,受到了研究者们的广泛关注。在现实应用中,获取足够多的标记样本是非常昂贵和困难的,相比较而言大量的无标记数据极易获取,在没有过多标签数据的情况下如若使用监督降维方法,可能导致模型产生过拟合;另一方面,如果使用无监督的方法,则忽略了有标记样本的价值。因此,半监督的降维方法得到了广泛的研究与应用。其中,基于图的半监督降维方法具有简单,容易理解等优势,获得了更多的关注。传统的基于图的降维方法需要预先定义一个图结构,后续的降维过程依赖于预先定义的图结构,也就是说降维过程与图结构的学习是分离开的,所以说学习到的图结构可能不是最优的图,从而导致最后的结果不理想。本文主要针对传统的基于图的半监督降维算法中存在的这个问题,做了相应的研究与改进。本文主要工作如下:(1)基于自适应结构化最优图的算法是利用有标记数据的类别信息,直观的为每一个已知标签的样本寻找近邻点,挖掘数据的局部结构信息,以防止噪声或者离群值点的影响;然后根据所有的训练数据去构造一个表示样本间结构信息的正则化项将监督的方法扩展到半监督领域,在这里,我们针对整个样本集合,采用自适应邻域学习的方法,对样本的近邻进行自适应的调整:同时我们希望学习到的图结构是稀疏的并且具有清晰的结构,即图中连接的组件数量恰好是数据样本的类别数,这种结构化图对于许多任务来说都是有益的,因为它包含了更为准确的数据信息,所以将结构约束加入到图结构中。在合成以及真实数据集上的实验结果验证了本文算法的性能。(2)在正交最小二乘判别分析的基础上提出了一种新的的自适应半监督降维方法,称为自适应弹性判别分析。该方法通过使同一类的数据点靠近该类的样本中心点来获取更大的类间判别分析,除此之外,我们依旧延续上一个方法中的自适应邻域思想来学习图结构,但是通常情况下,在使用自适应邻域来学习图结构的过程中,我们是采用线性投影来表示原始的训练样本和低维表示之间的关系,这对处理非线性数据来说,会存在一些不足,因此通过加入一个正则化项,可以放松线性投影约束,估计最接近线性嵌入的非线性流形,该方法在求出非线性嵌入的同时,又估计了一个能够直接作用于新样本的线性投影。最后,我们通过实验验证了在自适应邻域学习的基础上引入弹性嵌入思想的有效性。