论文部分内容阅读
信息爆炸时代给我们带来了无论种类还是数量上都空前巨大的信息。随着计算机通信与互联网技术、各种传感器所带来的物联网技术的极速发展与广泛应用,大量数据的收集变得非常容易且成本低廉。这为人工智能领域中迫切需求的机器学习、模式识别与计算机视觉的快速发展提供了必要的数据支撑。然而,如何有效地选择数据,如何从数据中学习有用的信息,成为摆在科研人员面前的重要问题。本文围绕数据选择和数据内在子空间和流形信息学习等问题通过模型建立、算法设计和分析等方面进行了系统性的研究,并将相关算法应用于协同过滤、图像修补和视频背景建模等工程领域。本论文的研究成果有:1.针对海量数据的人工标记需要花费高昂的人力和时间成本,主动学习作为一种适宜的最小化标记成本的方法被越来越多的研究者所关注。在已有的主动学习算法中,有的方法利用了未标记数据的结构信息,但代表数据点的选择需要额外的计算,例如层次聚类;有的方法需要每次迭代预先训练多个分类器,从集成的角度找出需要人工标记的数据;有的方法仅仅考虑每次迭代中最靠近最优决策面的数据。为了克服上面的不足,我们提出了一种成对K近邻伪剪辑的主动学习算法。该方法受K近邻剪辑预处理思想的启发,并且在每次迭代中仅需要训练一个分类器和考虑最优分类超平面附近的多个数据。同时,我们也给出了相应的算法复杂度分析和参数分析。大量的实验结果表明了本章提出的成对K近邻伪剪辑的主动学习算法相对于其他主流的主动学习算法在仅需查询并标记少量样本下就能获得较好的分类性能。2.低秩矩阵填充与恢复问题是典型的从已知数据中学习其内在结构和信息的实际问题。最近几年,这个问题在数据池环境中通过矩阵的迹范数最小化技术或其他奇异值分解的变种方法得到了很好的解决。在这种环境中,海量数据的规模、样本的大小和视频帧数等都是提前获得的。所以前面的问题能够通过在每次迭代中对数据(稀疏)矩阵进行奇异值分解来解决,但时间复杂度非常高,因此这类方法并不适合应用于实时的环境中。为了能实时的对视频流进行背景建模,本文提出了一种-范数框架下基于Grassmannian流形的在线梯度下降算法模型。应用该模型,能在数据流的环境中在线的解决矩阵填充与恢复问题。通过引入黎曼流形优化,沿着Grassmannian流形测地线的最优子空间能够被找到。作为增量学习,在每次迭代中只涉及一个数据样本(向量)的计算。-范数框架的设计是为了能从被稀疏大噪声(局外值)和高斯噪声污染的数据中逼近恢复原始数据。基于乘子交替方向法和grassmannian流形优化的一种迭代算法被提出以解决在线环境下的鲁棒低秩矩阵填充、鲁棒低秩矩阵恢复以及视频监控中的背景建模等问题。此外,一种新颖的自适应步长策略被提出来有效地追踪子空间的变化。大量的人工和实际数据的实验表明,本文的方法与其他主流的算法相比拥有更好的鲁棒性和有效性。3.从已知数据中学习其内在的子空间信息可以被推广到学习其满秩矩阵分解背后的黎曼商流形结构,其中低秩约束可以通过满秩矩阵分解来表示。为了能解决更一般的矩阵填充问题,这其中包括病态矩阵和大规模矩阵,本文从测度的角度分析了现有的主流黎曼流形优化算法,并首次根据黎曼几何结构和目标函数的尺度信息在黎曼商流形切空间的水平子空间上构造一种新颖的黎曼测度。在黎曼商流形上优化所需的必要组件被重新设计和计算。为了验证所构造的黎曼测度的有效性,在黎曼商流形上的非线性共轭梯度法被采用。大量的数值实验表明,通过比较算法的收敛性,本文提出的黎曼测度优于现有的黎曼测度。采用这种新颖黎曼测度的非线性共轭梯度算法在收敛性上优于主流的低秩矩阵填充算法。4.通过结合多个个体分类器来改善单个分类器的性能近几年越来越成为一个研究热点。随之而来的问题就是在产生的众多个体分类器中是否都对降低集成系统的泛化误差有益。平衡个体分类器之间的差异和个体分类器自身的准确率,这本身就是设计集成学习算法的出发点同时也是难点。因此,本文提出了一种基于整数矩阵分解的选择集成算法。该算法分别从差异性和准确率两个因素出发,为了增加个体分类器之间的差异,将个体分类器的预测标记作为原始目标,且将正确标记引入,以此构造一个代表个体分类器的整数矩阵,通过对该矩阵进行分解获得个体分类器的投影方向,最终获得新的个体。然而,为了保证变换个体的性能,采用标准的性能判别准则去除集成中性能较差的个体。最后,通过雷达一维距离像的实验结果表明该算法有效地平衡了个体间差异性和个体自身的准确率这两个因素,相比单个分类器和其他集成方法,该方法提高了对雷达目标的识别准确率。5.针对在一个有监督学习任务中,如果目标域训练样本的数量非常稀少,这势必产生影响目标域中分类器学习和推广性能的问题。为了解决这个问题,除了使用主动学习的方法从目标域选择富含信息的样本并给与标记以增大训练样本外,在某些真实环境中往往已经存在另一些有标记的样本,且其获取相比目标域的训练样本更加容易,但是这些样本却与目标域的样本具有不同的数据分布形式,这些具有不同分布的有标记样本构成源域。因此,迁移学习被引入来处理目标域训练样本稀少的这类分类问题。我们提出了两种新的迁移学习算法:第一种是基于旋转森林空间变换的迁移学习算法,该算法通过旋转森林空间变换将源域样本向目标域形成的空间进行投影,通过测量变换后源域样本和目标域样本的相似度来选择可利用的源域样本帮助目标域中分类器的学习。通过文本数据的分类实验表明,该章所提算法相比其他算法获得了更好的分类性能。第二种为基于数据驱动的线性空间映射迁移集成算法。在该算法中,通过将源域的样本向目标域中容易被错分的样本空间进行投影变换,从而选择出对目标域分类有帮助的样本加入到目标域,改善其分类性能。特别地,为了更加有效地选择源域样本,本文将源域样本进行随机划分,并分别对于每个子集进行投影变换,然后结合每个子集获得的结果。对于UCI数据和合成孔径雷达目标图像数据的分类实验表明本章提出的算法相比其他算法有效地提高了目标域的分类性能,且改善了单个迁移的不稳定性。