论文部分内容阅读
统计学习作为统计学和人工智能的交叉学科,近年来得到快速发展,并在诸多领域得到了广泛的应用,例如数据挖掘、机器学习、内容检索、计算机视觉等等。其中基于稀疏理论的统计学习方法因稀疏分解理论、压缩传感理论的研究及其成功的广泛应用,引起了信息科学与统计学等领域研究者的极大关注,并对当前统计学习的研究产生了深刻影响。当前,统计学习领域的学者结合稀疏特性对传统统计学习理论和方法进行了丰富和拓展,正逐步形成有特色的统计稀疏学习学科,并成为统计学习与信息处理的重要研究方向。本文以统计稀疏学习方法为主线,着重在基于统计稀疏学习的数据降维、特征提取、迁移学习、聚类及分类等任务方面进行了深入的调研及探讨,并提出了相应的新方法和研究的新思路。其主要内容如下:1.本文首先对于统计稀疏学习方法的研究背景和意义进行了介绍,并对其在视觉问题上的应用进行了探索,然后分析了统计稀疏学习方法在国内外的研究现状。2.本文对当前的稀疏主元分析进行了调研,并分析了其若干局限性,特别是当前的方法无法对高阶的数据进行直接处理,而只能先把数据转换成向量进行操作。这样的转换必然破坏了数据之间的空间关系。对于这个问题,本文提出了一个崭新的稀疏高阶数据主元分析算法。我们的算法可以直接对基于张量表达的高阶数据进行分析,以达到数据降维和特征提取的效果。3.对于聚类问题,我们对于当前的一个基于字典学习的方法进行的分析,并对当前最广泛应用的K-means算法进行考查,然后指出了其在某些方面的局限性。针对这些局限性,我们提出了一个基于稀疏表达和字典学习的多任务聚类算法。我们的算法对于每一个潜在类学习一个字典以表达这个类的特征信息,同时对于所有数据学习一个公共字典以捕捉那些被多个类共享的信息。我们的算法以多任务学习的方式进行运作,并相应地提高了聚类性能。4.本文考察了当前的迁移学习领域中学者还未涉及到的方向,即如何对于无标签的异构数据进行无监督地迁移以达到增强求解目标任务性能的目的。面对这个问题,我提出了一个基于稀疏表达及字典学习的无监督迁移学习算法。我们的算法可以对源域数据寻找一个投影空间,以使驱使着这些异构数据像目标域数据空间靠拢。之后,我们的算法有选择性的地挑取更有意义的数据进行迁移,以提高目标域任务的性能。5.对于基于稀疏表达和字典学习的图片分类问题,本文进行了深刻地探讨和分析,并指出了当前的前沿方法的缺陷。针对这些缺陷,我们提出了一个新的基于字典学习的图片分类算法。我们的算法对于每个类都学习一个字典以捕捉那些最具有特色的信息,同时对于所有类学习一个共享字典以表达那些被多个类共享的必要的数据重构信息。通过我们的算法学习到的字典更加紧凑、更加具有判别能力,更重要的是,我们的算法可以把每个类中最具有判别特征的信息和那些被其他类也共享的信息分离开来,以达到提高分类正确率的效果。6.本文进一步把基于字典学习的图片分类算法扩展到了多特征分类任务中。与基于一种特征的图片分类相比,对于一张图片的多个特征同时进行分析并依据多个特征进行分类将能得到更好的分类结果。为此,我们提出了一个基于稀疏表达和字典学习的面向分类任务的多特征数据融合算法,以达到处理多特征分类的问题。我们的算法不只是单单处理多个特征,还能对这些特征进行融合,以取得一个可以表达图片高级语义信息的更加紧凑、更具有判别性的新特征。7.最后,本文总结了研究工作,并提出了一些值得进一步探究的方向。