论文部分内容阅读
在人类认识和改造世界的过程中,往往需要通过多源数据认知事物。与单源数据相比,多源数据蕴含了更加丰富的信息和知识,通过对多源数据的研究分析能够获取对事物更加全面客观的认知。面向多源数据的机器学习算法通过利用多源数据中的隐藏知识,可以有效提高算法的学习能力,然而传统机器学习方法一般面向单源数据建模,多源数据使传统机器学习方法面临新的挑战。本文针对多源数据学习的基本问题,研究面向多源数据的谱学习算法,主要工作包括:为了实现多源数据的融合学习,建立面向多源数据的融合学习模型。该模型通过结合全局谱嵌入融合和局部谱嵌入融合,能够更加全面地表示多源数据的内部结构。针对多源数据融合新模型,本文给出相应的优化求解算法。通过实验验证了算法的有效性,能够提高同构完备多源数据融合聚类的性能。为了降低多源数据融合学习模型的复杂度,提高算法学习效率,提出谱密度表示方法。首先通过谱方法获取各数据源的密度信息,形成多源数据的一致谱密度表示。通过各数据源谱密度表示的线性组合,获取最优谱密度表示。在此基础上,利用密度峰值聚类算法完成多源数据聚类任务。通过在多源数据集上的实验验证了算法具备多源学习的能力和较高效率,并且具备处理噪声数据的能力。为了解决非完备多源数据中存在数据缺失的问题,提出谱修复的方法。首先通过建立不同数据源之间的投影对各数据源进行填补,然后通过算子的谱性质对各数据源进行修复,从而获取各数据源真实完整的邻接矩阵。在获取各数据源真实完整的邻接矩阵基础上,建立多源数据的融合模型。通过在非完备多源数据集上的实验验证了算法能够解决多源数据中存在样本缺失的问题,实现非完备多源数据的融合学习。为了解决异构多源数据中存在关联缺失的问题,提出同时利用样本对应关系和特征对应关系构建各数据源之间的关联关系。传统多源学习中的关联关系主要体现为不同数据源之间样本的对应关系,但是当样本对应关系出现缺失时,传统多源学习方法无法建立学习模型。本文基于流形对齐的方法,联合两种对应关系,实现了异构多源数据的融合学习。通过在异构多源数据集上的实验表明算法与传统多源学习方法相比在出现样本对应关系缺失时性能更加良好和稳定。本文主要创新点包括:1.针对多源数据的融合学习问题,提出多源谱嵌入融合学习算法;2.针对多源数据的数据表示问题,提出多源谱密度表示学习算法和多源谱修复学习算法;3.针对多源数据中关联挖掘问题,提出多源谱关联学习算法;