论文部分内容阅读
分类学习作为机器学习和数据挖掘的重要研究领域,其中二分类学习由于它的广泛的应用受到众多学者的关注。传统二分类算法大多数关注平衡环境,而在实际应用中,真实数据在两个类别之间存在不一致,对此很多学者对不平衡二分类问题产生了浓厚的兴趣,其中针对不平衡二分类问题提出了很多直接优化不平衡分类准则的算法,作为其中的代表,直接优化AUC算法由于关注的是正负样本之间的偏序关系,因此逐渐成为研究的热点,也取得了良好的效果。已有的多数直接优化AUC算法采用批学习方式,这样使得一次计算时需要存储大量的样本和计算所有样本的梯度信息,其效果降低并且不适合大规模数据场景。在此背景下,本文将在线学习和直接优化AUC相结合,提出研究面向大规模数据的在线优化AUC算法,利用在线学习在大规模环境下的优势,首先提出了基于自适应正则项的在线AUC优化算法,随后针对大规模高维环境,提出了基于自适应更新的稀疏在线AUC优化算法,现将本文的主要工作总结如下:(1)针对传统的在线学习只适合处理单样本数据,并不适合处理面向AUC的样本对问题,因此本文提出了基于自适应正则项的在线AUC优化算法。具体而言,通过假定模型符合多元高斯分布,i.e.w N(?,(50)),根据经验分布和概率分布之间的差异性,结合大边缘训练(large margin training)、置信度加权(confidence weighting)和处理不可分离数据(handle non-separable data)的三个属性定义了面向AUC的目标函数。在每次接收到新样本后,对预测函数进行自适应正则化,可有效获得分类模型;同时,该算法与置信度加权在线学习技术相关联,置信度(协方差(50)的逆特征值度量)随着样本迭代更新而增加,而置信度反应每一维数据之间的相关性,利用其相关性来自适应更新学习率策略,能够有效提升算法的整体性能。理论分析表明所提算法具有O(T)的regret界限,其后在大规模实验数据集上验证了所提算法的有效性。(2)针对很多真实的数据规模中,不仅数据规模大而且数据的维度很高,现有的在线优化AUC算法虽然已经取得了较好的分类效果,但是对高维数据关注较少。对此,本文提出了一个面向高维数据的自适应更新的稀疏在线AUC优化算法。针对大规模高维数据问题,首先将AUC最大化问题转化为基于L1正则项的凸优化问题,通过使用COMID作为内部优化算法,融入Bregman散度作为模型的更迭方式。同时,结合Adagrad充分利用梯度的二阶信息,获得一个适合不同维度的自适应步长来有效更新稀疏分类模型。为了进一步提升算法的性能,一种基于多项式衰减的策略被提出,理论分析和大规模高维数据的实验表明所提算法的有效性。