论文部分内容阅读
大数据的时代,获取数据的途径已经变得十分方便和快捷。在分类问题中,往往需要采用大量的标签训练数据。而训练数据标签的获取过程里,往往采用人工标注的方式。由于个人经验和实验测量的局限,不可避免的导致训练数据的错误标签问题。目前,多数分类方法并没有考虑错误标签数据对分类结果的影响,而单纯的任务数据仅受到噪声的影响或者认为分类方法自身对数据集具有一定的容错能力。但在许多实际应用中,错误标签数据对分类器的影响是不可忽视的。如何有效地检测出训练数据集当中的错误标签数据,并提高分类算法对错误标签数据的鲁棒性,在数据分类问题中具有十分重要的意义。 本文针对错误标签数据的检测和分类问题展开两方面的工作。一方面,分析训练集中数据的置性度权值,从而检测出训练集的错误标签数据;另一方面,基于检测结果,从数据特征提取和分类器两个角度提高分类方法对错误标签数据的鲁棒性。具体工作如下: 1.针对错误标签数据的检测问题,本文提出了一种新颖的方法,即基于稀疏重构权的错误标签数据检测方法。该方法对含有错误标签数据集采用 k近邻的方法求取其近邻点。然后,通过求解带L1-范数的最小二乘模型计算每个标签数据的局部稀疏重构权,并利用稀疏重构权计算每个标签数据的置信度。最后,寻找置信度曲线中最大曲率的位置,自适应地检测出错误标签数据。通过在不同数据集上的验证试验表明,我们提出的算法能有效的检测错误标签数据。 2.基于错误标签数据的检测结果,本文从两个角度开展分类算法的研究。 1)基于错误标签数据,提出一种有效的特征提取算法。度量学习算法是一种有效的特征学习算法,该算法同时考虑数据的标签信息和数据点之间的几何关系。我们基于度量学习中的经典算法近邻元分析(nca)的思想,在优化模型中引入样本数据的置信度权值,从而有效地降低错误标签数据的影响。通过求解优化模型,获取新的度量矩阵,从而有效提取数据的特征。 2)基于错误标签数据,提出新的分类器算法。我们对经典的最近邻分类器(knn)和支撑向量基(svm)提出改进算法。基于错误标签数据的置信度权值,我们将权值引入分类器算法,以降低错误标签数据对分类结果的影响。通过在实际数据上的实验,验证本文算法能有效降低错误标签数据对分类结果的影响。