论文部分内容阅读
随着科学技术的迅猛发展,我们进入了大数据时代,应用系统产生的数据以爆炸性的速度增长。这些数据除了规模巨大以外,在诸如图像和视频理解、生物信息学、文本挖掘等领域也呈现出维度很高的特点。大量的研究和实践表明,事实上并不是所有的特征都是和学习任务(如分类)相关,也不是所有的特征都可以提高学习器的性能。这些特征是通常稀疏的,并且包含有大量无关和冗余信息。直接利用这些高维数据常常会面临高昂的计算代价、沉重的存储负担、以及由于不相关特征和冗余特征造成的性能下降等问题。因此,如何解决由数据的高维度带来的“维度灾难”和过拟合等问题已经成为研究的重点方向。特征选择已经显示出其解决上述问题的有效性。在现实应用中存在大量的未标记数据,已标记数据却很少,而人工标记数据的代价昂贵,因此如何在无监督的情况下进行特征选择成为了具有迫切需求和重要应用价值的研究方向。虽然很多无监督特征选择算法被提了出来,但它们通常有以下的限制:大多数现有的无监督特征选择方法通常假设选择出来的特征和类结构是线性相关的。然而,在现实世界中,二者之间关系的复杂性远非线性,而探索其复杂的关联往往较为困难但也极具价值。为了解决上述问题,本文引入了希尔伯特施密特独立性准则(HSIC)来度量选择的特征和类结构之间的非线性关系,提出了基于HSIC的单视角和多视角的非线性无监督特征选择方法。具体内容如下:1、度量单视角数据下选择的特征和类结构之间的非线性关系。在单视角下提出了基于HSIC的非线性无监督特征选择方法:首先通过谱聚类来学习数据的类结构–伪类标签,通过?2,1范数保证特征选择矩阵的稀疏性;不同于其他方法,本文利用HSIC来度量选择的特性和类结构之间的非线性关系。2、探索多视角数据选择的特征和类结构之间的非线性关系。在多视角下提出了基于HSIC的非线性无监督特性选择方法:利用多视角数据之间的互补性,通过谱聚类来学习数据的类结构;为了保证多视角数据的一致性,不同于其他多视角特征选择方法在每个视角上学习相同的类结构,我们的方法引入了一致性的类结构,有效的处理了可能存在的噪声和异常值,更加的鲁棒;利用HSIC来度量学习到的特征和一致性的类结构之间的非线性关系。