论文部分内容阅读
随着科技的飞速发展,现实生活中获取的从多个数据源的多种形态的数据成指数级增长。如何对海量的高维、稀疏、含噪声和非独立同分布数据进行快速有效的处理,进而提取出用户所需要的有价值信息,是数学、计算机科学及实际工程应用领域的研究者普遍关心的问题。迁移学习是一种有效的数据处理工具,可以处理复杂海量数据。本文从迁移学习的必要性出发,从理论、方法和应用三个层次上系统研究了迁移学习问题。具体而言,本文的主要贡献如下:1.分析了已有迁移学习方法内在关联,用统一的观点归纳总结了现有的迁移学习方法,为迁移学习方法及应用研究提供了理论支撑。对已有的迁移学习方法进行了细致总结、分类,针对不同学习设置的迁移学习,把多任务学习、自学习、域适应、样本选择偏置及协方差偏移等问题纳入一个整体中;对传统机器学习中的维数约简、半监督学习和主动学习等技术进行深入研究,寻求它们与迁移学习的联系,用已有的机器学习技术指导迁移学习算法设计。2.将半监督学习技术应用到迁移学习领域,建立了基于图模型的迁移学习方法,丰富了基于样本的迁移学习理论及方法。通过构建三部图,将源域数据、目标域数据以及它们之间相互关系统一到了三部图中,通过学习该图的图谱,得到图上所有顶点新的特征表示。用传统的机器学习模型训练新的特征表示下的目标域标签数据,得到分类器,然后预测目标域非标签数据的标签。新的特征表示涵盖了源域数据样本空间、特征空间以及标签空间的信息,源域数据知识迁移到了目标域中,使得传统的学习模型可以有效的解决迁移学习问题。文本数据集上的实验证明了方法的有效性。3.提出了基于稀疏正则化的子空间迁移学习方法,丰富了基于特征的迁移学习理论及方法。首先提出一种基于稀疏约束的非监督最大间隔特征选择方法。该方法将特征选择和k均值聚类统一到一个框架中。在变换矩阵W中加入L2,1范数正则项,有利于特征选择的进行。提出了一个迭代算法解决凸优化问题,确保其收敛到最优值,给出了算法的收敛性分析,实验结果表明了方法的有效性。然后将上述模型进行扩展,提出了一种迁移学习的统一框架,即迁移稀疏子空间学习框架。该框架适用于不同的子空间学习方法,也适用于不同的迁移学习数据分布散度假设,如最大均值差异散度、Bregman散度和KL散度等。将有效的稀疏约束项加入迁移子空间学习问题中,有效减少了时间和空间复杂度,可以避免过拟合问题。针对不同的数据分布散度假设,提出了相应的解决方案,并给出了收敛性分析。文本和图像数据集上的实验结果表明了算法的有效性。4.针对现实应用中出现的高维、稀疏、噪声和非独立同分布数据,本文提出了一种基于图正则和稀疏正则的迁移学习模型。首先针对源域数据,提出了一种基于稀疏约束的鲁棒非负矩阵分解模型,学习到的矩阵富含源域和目标域数据的共有信息;其次将第一步中学到的矩阵作为迁移学习的桥梁,迁移到目标域数据中,针对目标域数据,提出了一种基于图正则和稀疏正则的非负矩阵分解模型,完成对目标域数据的重构,该模型同时将鲁棒损失函数、稀疏约束正则化和数据局部结构特征等因素考虑进目标函数;然后,在重构的稀疏目标域数据上进行特征选择,得到目标域数据新的特征表示;最后给出模型的迭代算法及收敛性分析。文本数据集和图像数据集上的实验验证了模型和算法的有效性。