论文部分内容阅读
“学什么”是机器学习中首要的基本研究问题,“学什么”在计算层面上对应机器学习中损失函数的设计,损失函数得合适与否直接决定了机器学习模型的性能好坏。给定训练样本数据,损失函数的设计通常包含:单个样本损失函数的设计,样本集上聚合损失函数(Aggregate Loss)的设计以及模型正则项的设计。目前关于聚合损失函数的分析和研究比较欠缺,典型的平均损失和最大损失各有优缺点,无法很好地拟合真实数据各种复杂的分布,如类别不平衡分布等。鉴于此,本文提出了平均Top-K(Average Top-K,ATk)损失作为一种新的聚合损失函数并对其理论性质进行分析和研究,ATk损失可以更好地拟合数据的不同分布。本文将ATk损失应用于度量学习(Metric Learning)中,缓解了度量学习中存在的原空间和变换空间中样本局部结构不一致性和样本难易程度不一致性等问题。另一方面,目前基于自步学习(Self-Paced Learning)的优化策略在非凸优化中得到了越来越多的关注和发展,但其理论分析非常欠缺。本文从隐含正则化的角度出发对自步学习的学习目标以及其对噪音数据和异常样本的鲁棒性原理进行分析和探讨。本文取得的主要研究成果如下 1.针对聚合损失函数,本文分析了平均损失、最大损失和第k大损失等聚合损失的优缺点,并提出了平均Top-K损失函数。ATk损失函数定义为样本集上前k个最大损失的平均值,其包含了平均损失和最大损失,并且是第k大损失的凸上界。相比于平均损失和最大损失,ATk损失能够更好地拟合不同的数据分布,特别是不平衡数据和多分布数据。ATk损失是一个非常通用的聚合损失函数,其可以和任何定义在单个样上的损失函数结合起来,并且是单个样本损失的凸函数。本文分并推导了二分类问题中ATk损失的分类校准(classification calibration)性质和k值的关联,由此给出了k值的一个理论下界。本文将ATk损失和hinge损失结合起来提出了ATk-SVM模型,并给出ATk-SVM模型的可达误差上界。最后在仿真数据集和真实数据集,以及在分类问题和回归问题中都验证了ATk损失的有效性。 2.针对度量学习中存在的原空间和变换空间中样本局部结构不一致性和样本难易程度不一致性问题,本文提出了基于平均Top-K损失的度量学习模型ATk-DML。ATk-DML模型在保持相似样本对之间距离的上界的同时最大化距离最近的前k个不相似样本对之间的距离。本文提出了一个高效的算法用以ATk-DML模型的求解并在仿真数据集以及真实数据集上都验证了ATk-DML模型的正确性和有效性。 3.针对自步学习,本文从凸共轭角度出发提出了自步隐含正则子,分析并指出基于自步隐含正则子的自步学习模型SPL-IR的优化求解过程对应于一系列隐含的鲁棒原损失函数的最小化,并以此分析了自步学习对噪音数据和异常样本具有一定鲁棒性的原理。此外,本文分析了SPL-IR模型和半二次优化(Half-Quadratic Optimization)之间的关联,并提供了一组鲁棒原损失函数诱导的自步隐含正则子。最后,在仿真数据集和真实数据集,以及在矩阵分解和多模态聚类中都验证了SPL-IR模型的正确性和有效性。