论文部分内容阅读
21世纪是数据的时代,大数据的观念已经深入人心,其潜在价值触发了工业、学术、教育、商业等各个领域的变革与创新,机器学习作为数据分析的核心技术,在挖掘数据背后的潜在模式、关联、趋势等方面有着广泛的应用。一方面数据容量在快速增长,另一方面统计机器学习理论对数据标注的精准性有着严格要求,然而精准标注需要消耗大量专家、金钱和时间等资源。为了实现大规模数据的快速标注,以众包(crowdsourcing)和半监督算法为代表的噪声标注即将成为大数据时代标注技术发展的趋势。在这种情景下,噪声标注数据对学习算法的鲁棒性和自适应性带来了前所未有的挑战。目前,关于噪声标注数据学习的研究逐渐引起了专家和学者的关注,其核心问题主要涉及两个方面:一是对于标注噪声的建模和估计,探索噪声标注的内在复杂性和相关规律;二是在噪声标注情景下设计学习算法,使得算法的性能对标注噪声具有一定的鲁棒性,能够具有较好的泛化能力。本研究以类条件噪声,即CCN(Class Conditional Noise)作为噪声标注的情景,标注的噪声只与真实标注存在概率上的依赖关系,探索CCN的参数估计方法,并结合近期提出的Importance Reweighting思想,归纳出相关的噪声标注数据学习框架,开展相关的实验和算法设计,相关的工作如下:(1)在给出CCN的具体描述下,从算法的优化目标和实验结果两个方面,分析了标注噪声对经典分类算法的性能影响。在UCIR(University of California Irvine Repository)数据集上的实验结果显示NB(Na?ve Bayes)算法、SVM(Suppport Vector Machine)算法和Bagging算法对于CCN的鲁棒性较高,AdaBoost和KNN等算法受到标注噪声影响,准确率波动较大。同时,注意到少数情况下,低水平的噪声对于部分算法性能的提升有一定效果。(2)针对经典的统计机器学习理论中的风险函数理论进行了归纳和总结,剖析了期望风险函数、经验风险函数和正则化风险函数之间的关系;解释了CCN情景下,直接利用噪声标注数据进行风险函数估计的潜在偏差,阐明了近期基于Importance Reweighting思想的噪声标注数据学习算法的本质和理论上的最优性;最终形成基于Importance Reweighting思想的噪声标注学习框架,指明了该框架下的两个关键技术难题:噪声率矩阵的估计和Importance Reweighting思想在具体算法中的嵌入。(3)在CCN情景下,噪声率矩阵反映了弱标注类之间随机误标注的跳转(Flip)关系,间接地体现了标注的噪声规律。针对该情景下的噪声率矩阵估计问题,本文总结了近期的研究现状,并提出了一种借助少量精准标注数据与大规模噪声标注数据协同学习估计噪声率矩阵的Back-End算法,这种算法适用于多类噪声标注的数据;同时,详述了用于二分类噪声估计的RP(RankPruning)算法,在此基础上给出了MRP(Multi-class RankPruning)算法用于估计多分类数据噪声率矩阵的对角元素。在一些新提出的指标上,Back-End算法和RP算法都体现了性能的优越性。(4)在CCN情景下,以传统的SVM作为具体分类器实现了基于Importance Reweighting思想的噪声标注数据学习框架,得到IRSVM(Importance Reweighting SVM)模型,并在理论上证明了基于Importance Reweighting思想的修正方法与代价敏感的方法具有一致性和相通性,进一步地推导了Importance Reweighting思想嵌入的对偶SVM模型;在OVR(One VS Rest)的策略下利用MRP算法将该模型推广到任意多分类问题中,给出了KIRSVM(K-class IRSVM)模型。在仿真数据集和UCIR数据集上都证明了IRSVM模型和KIRSVM模型在CCN情景下学习的有效性。进一步地,以舰船编队阵型识别作为具体案例,在给定虚拟对抗实验平台生成的噪声标注数据上开展相关实验,通过Back-End算法给出优化标注过程的建议,验证了KIRSVM算法对于噪声标注数据学习的有效性,并且对类不平衡分布的不敏感性,实现了对舰船编队关键阵型的有效识别。总之,本研究围绕着CCN情景下的噪声标注学习问题,提出了噪声率矩阵估计的有效算法,深入探讨了Importance Reweighting思想在噪声标注数据学习中的应用,归纳了解决噪声标注学习的一般框架,设计了该情景下二分类和多分类的学习模型,在一定程度上解决了舰船编队阵型识别问题。在总结全文工作的过程中,指明了噪声标注学习领域的当下挑战与亟待解决的难题,其中特别强调了复杂概率依赖标注噪声下的学习问题和时序噪声标注下的学习问题。