论文部分内容阅读
表示学习对于人工智能的成功有着十分重要的意义,从传统的机器学习模型到如今的深度学习模型,表示学习在不同的应用领域中发挥着巨大的作用。本文从基于无监督的多核表示学习方法出发进行研究,分别对样本自适应学习问题和鲁棒性问题进行研究,并在实验数据集上验证了研究的有效性。尽管基于无监督的多核表示学习方法取得了优良的实验性能,但是由于核函数自身的局限性,在大规模的应用场景中存在计算和存储效率低的缺点。为了克服这个缺点,本文对基于无监督的图表示学习方法进行研究,该方法采用低维度的特征向量来表示样本,拥有计算和存储效率较高的特点,在大规模数据集上取得了优良的实验性能。最后,针对拥有少量标注数据的应用场景,本文对基于半监督的图表示学习方法进行研究,该方法既可以有效利用少量标注数据提升整体模型的准确性,又可以有效缓解在少量标注数据集上直接使用有监督学习带来的严重过拟合问题,从而得到更适合目标任务的表示信息。本文的主要工作和创新点概括如下:(1)提出了一种基于隐变量的多核表示学习算法。基于无监督的多核表示学习方法——多核k-means聚类算法,融合多个核函数的信息,被广泛应用于机器学习、计算机视觉和自然语言处理任务中。该算法将传统的核k-means算法从单个核函数的场景扩展到多个核函数的场景中,有效避免了核k-means聚类算法存在的核函数选择问题。现有的多核k-means聚类算法将核函数中的所有样本赋予相同的权重,忽略了样本相关的数据特征信息。我们提出了一种基于隐变量的多核表示学习算法。该算法通过引入隐变量的方式针对每个样本自适应地调整在每个基础核函数中的权重;为了提升数据在核函数层面和样本层面特征的有效性,降低模型的过拟合风险,我们在核函数层面和样本层面分别提出了多样性正则化项和图正则化项对模型加以约束;此外,我们提出了一种有效的三步迭代算法,以共同优化核函数层面和样本层面的参数;我们在计算机视觉和自然语言处理应用数据集中进行了全面的实验,并将其与现有的方法进行比较,实验证明了我们提出的算法优于现有算法。(2)提出了一种基于鲁棒性的多核表示学习算法。多核k-means聚类算法通常从一组预先指定的基础核函数中学习最佳的核函数以提高算法性能。传统的多核k-means聚类算法通过线性组合一组基础核函数,然后通过优化目标函数的方式得到最优的组合系数。尽管通过线性组合的多核k-means聚类算法取得了良好的性能,但是我们发现通过线性组合的方法缺乏对噪声数据的鲁棒性。我们提出了一种基于鲁棒性的多核表示学习方法,该算法从一组基础核函数学习出一个公共的最优核函数,其中每个基础核函数都可以分解成为最优核函数矩阵和稀疏误差矩阵;为了降低部分误差矩阵中的误差数据过大从而影响模型的学习能力,我们引入了一组自适应参数对误差矩阵进行动态调整以减轻该影响;我们采用非精确增广拉格朗日乘子优化方法对公共的最优核函数和自适应参数进行联合优化求解;我们在计算机视觉应用数据集中进行了全面的实验,并将其与现有的方法进行比较,实验证明了我们提出的算法能够鲁棒地学习出公共的核函数。(3)提出了一种基于个性化PageRank的图表示学习算法。图表示学习算法,通过对图的结构信息和节点的附加信息(例如文本信息)进行表示学习以得到更好的节点表示,被广泛应用于众多社交网络分析任务中,例如链接预测、社区发现等。然而,现有的大部分研究工作仅仅考虑了两两直接相连接的邻居节点之间的信息交互,而忽略了距离更远的节点之间的信息交互,从而影响最终的实验性能。我们针对节点拥有附加文本信息的图进行研究,该算法通过将结构信息和节点信息进行表示学习的方式以学习每个节点的表示;在移除仅仅考虑两两直接相连的邻居节点之间这个限制的基础之上,提出了一种更有效并且具有空间局部性的方法——个性化PageRank方法来完成更远距离之间的节点信息交互操作。此外,我们在理论上进一步分析了个性化PageRank方法与谱域方法之间的联系,从而进一步为性能提升提供了理论支持。最后,我们在引用网络数据集、社交网络数据集上进行了全面的实验,并将其与现有的方法进行比较,实验结果证明了我们提出的算法优于现有的算法。(4)提出了一种基于全局信息和局部信息融合的图表示学习算法。基于图神经网络的图表示学习在图结构数据集(例如:社交网络、学术引用网络以及知识图谱等)得到了广泛研究和关注,其中在基于半监督学习任务——节点分类任务上效果十分显著。已有的图神经网络一般可以分为以下三种类型:第一类图神经网络通常对直接链接的邻居节点进行消息传递;第二类图神经网络试图以更高阶的方式来进行消息传递,相比于一阶的方式可以获得更多的局部信息;第三类图神经网络则是利用图扩散机制来聚合全局邻居节点的信息。虽然这三种不同类型的图神经网络受到了众多研究者的研究和应用,但是很少有研究者试图对三种不同种类图神经网络进行统一建模。我们旨在弥补一阶、高阶以及全局扩散机制模型之间的差距,将直接邻域信息学习、较大的局部信息学习和全局信息学习整合到统一的框架中,以完成对全局信息和局部信息的融合来提升图表示学习的能力。此外,我们从理论上证明了我们的统一框架算法等同于在谱域分析中对图执行低通滤波操作。最后,我们将提出的算法应用到学术引用网络数据集、社交网络数据集中。我们在学术引用网络数据集、社交网络数据集合中进行了全面的实验,并将其与现有的方法进行比较,实验结果证明了我们提出的算法优于现有的算法。