类条件噪声标注情景下学习问题及算法研究

来源 :国防科技大学 | 被引量 : 0次 | 上传用户:cjcjmalei
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
21世纪是数据的时代,大数据的观念已经深入人心,其潜在价值触发了工业、学术、教育、商业等各个领域的变革与创新,机器学习作为数据分析的核心技术,在挖掘数据背后的潜在模式、关联、趋势等方面有着广泛的应用。一方面数据容量在快速增长,另一方面统计机器学习理论对数据标注的精准性有着严格要求,然而精准标注需要消耗大量专家、金钱和时间等资源。为了实现大规模数据的快速标注,以众包(crowdsourcing)和半监督算法为代表的噪声标注即将成为大数据时代标注技术发展的趋势。在这种情景下,噪声标注数据对学习算法的鲁棒性和自适应性带来了前所未有的挑战。目前,关于噪声标注数据学习的研究逐渐引起了专家和学者的关注,其核心问题主要涉及两个方面:一是对于标注噪声的建模和估计,探索噪声标注的内在复杂性和相关规律;二是在噪声标注情景下设计学习算法,使得算法的性能对标注噪声具有一定的鲁棒性,能够具有较好的泛化能力。本研究以类条件噪声,即CCN(Class Conditional Noise)作为噪声标注的情景,标注的噪声只与真实标注存在概率上的依赖关系,探索CCN的参数估计方法,并结合近期提出的Importance Reweighting思想,归纳出相关的噪声标注数据学习框架,开展相关的实验和算法设计,相关的工作如下:(1)在给出CCN的具体描述下,从算法的优化目标和实验结果两个方面,分析了标注噪声对经典分类算法的性能影响。在UCIR(University of California Irvine Repository)数据集上的实验结果显示NB(Na?ve Bayes)算法、SVM(Suppport Vector Machine)算法和Bagging算法对于CCN的鲁棒性较高,AdaBoost和KNN等算法受到标注噪声影响,准确率波动较大。同时,注意到少数情况下,低水平的噪声对于部分算法性能的提升有一定效果。(2)针对经典的统计机器学习理论中的风险函数理论进行了归纳和总结,剖析了期望风险函数、经验风险函数和正则化风险函数之间的关系;解释了CCN情景下,直接利用噪声标注数据进行风险函数估计的潜在偏差,阐明了近期基于Importance Reweighting思想的噪声标注数据学习算法的本质和理论上的最优性;最终形成基于Importance Reweighting思想的噪声标注学习框架,指明了该框架下的两个关键技术难题:噪声率矩阵的估计和Importance Reweighting思想在具体算法中的嵌入。(3)在CCN情景下,噪声率矩阵反映了弱标注类之间随机误标注的跳转(Flip)关系,间接地体现了标注的噪声规律。针对该情景下的噪声率矩阵估计问题,本文总结了近期的研究现状,并提出了一种借助少量精准标注数据与大规模噪声标注数据协同学习估计噪声率矩阵的Back-End算法,这种算法适用于多类噪声标注的数据;同时,详述了用于二分类噪声估计的RP(RankPruning)算法,在此基础上给出了MRP(Multi-class RankPruning)算法用于估计多分类数据噪声率矩阵的对角元素。在一些新提出的指标上,Back-End算法和RP算法都体现了性能的优越性。(4)在CCN情景下,以传统的SVM作为具体分类器实现了基于Importance Reweighting思想的噪声标注数据学习框架,得到IRSVM(Importance Reweighting SVM)模型,并在理论上证明了基于Importance Reweighting思想的修正方法与代价敏感的方法具有一致性和相通性,进一步地推导了Importance Reweighting思想嵌入的对偶SVM模型;在OVR(One VS Rest)的策略下利用MRP算法将该模型推广到任意多分类问题中,给出了KIRSVM(K-class IRSVM)模型。在仿真数据集和UCIR数据集上都证明了IRSVM模型和KIRSVM模型在CCN情景下学习的有效性。进一步地,以舰船编队阵型识别作为具体案例,在给定虚拟对抗实验平台生成的噪声标注数据上开展相关实验,通过Back-End算法给出优化标注过程的建议,验证了KIRSVM算法对于噪声标注数据学习的有效性,并且对类不平衡分布的不敏感性,实现了对舰船编队关键阵型的有效识别。总之,本研究围绕着CCN情景下的噪声标注学习问题,提出了噪声率矩阵估计的有效算法,深入探讨了Importance Reweighting思想在噪声标注数据学习中的应用,归纳了解决噪声标注学习的一般框架,设计了该情景下二分类和多分类的学习模型,在一定程度上解决了舰船编队阵型识别问题。在总结全文工作的过程中,指明了噪声标注学习领域的当下挑战与亟待解决的难题,其中特别强调了复杂概率依赖标注噪声下的学习问题和时序噪声标注下的学习问题。
其他文献
在当前我国经济社会转型的大背景下,行业特色大学非学历继续教育面临着诸多机遇和挑战。从目标定位、发展战略、发展模式等方面实施综合改革,是推进非学历继续教育转型发展的必
随着全球气候变化日趋严重,节能减排的呼声也日渐高涨,电动汽车迎来了新的发展机遇,其配套充电设施的发展引起了广泛关注。文献研究发现,当前充电设施大多依托电网供电,有很大的局限性。此外,传统电网的电力大部分来自火力发电,而这并未从根本上实现电动汽车低碳出行。利用太阳能和风能等清洁能源为充电设施离网供电,势必成为未来的发展方向。基于新能源技术的充电系统以往的研究出发点大都集中在电气集成和工程技术等角度,
车载指挥方舱是指挥装备和操作人员的主要载体之一,装载于底盘车上,形成具有机动性能的移动指挥作战中心,多名士兵在方舱内部进行协同指挥工作。车载指挥方舱在这种机动性的作战环境下,由于其自身特性和外形尺寸条件限制,舱室内部可用空间面积有限,在人机环境设计以及设备的人机尺寸设计上缺乏整体感和规划性。因此,亟需利用人机工程学原理对车载指挥方舱舱内人机环境进行改进,提高舱室人机性能。本文从舱室人机环境的组成元
目前国内对曲轴的检测主要依靠进口设备和专用量具,但进口设备高昂的费用和专用量具低效的测量方式严重制约了国内汽车市场的潜力。为了解决国内曲轴检测技术领域的壁垒,有必要研究曲轴关键参数误差的评定算法,为自主研发的曲轴综合测量仪高效地实现一次装夹、多参数测量提供算法支持。本文分析了曲轴综合测量仪的系统组成、测头特点及工作原理,并给出了关键参数误差的评定方案。基于评定方案和设备特点设计了曲轴关键参数误差的
近年来对新城疫的防控仍以疫苗免疫为主,由于饲养环境及管理水平、免疫程序、疫苗的质量、鸡免疫应答能力、毒株的变异等实际问题,目前多以非典型病例出现,容易造成误诊。该
散文母题摭谈张屏当前的散文创作,自从余秋雨先生《文化苦旅》叫响,便有“文化散文”的倡导。一时间,许多散文家竞相开掘中国文化历史。这似乎是好事,文化意识的自觉,毕竟标志着散
不定方程不仅自身发展异常活跃,而且全面应用于离散数学的其他各个领域,它对人们学习研究和解决实际问题有着重要的作用。因此,国内外有诸多学者对不定方程进行着广泛而深入
近年来,随着国民经济的平稳发展,中国饭店业也取得了持续性的发展。然而,在饭店行业整体发展的同时,饭店从业员工对于职业的认同度相对较低,离职率一直居高不下。究其原因,不
塔式吊车,是一类典型的欠驱动机械系统,欠驱动系统是指一类独立控制变量个数少于自由度个数的系统,同完全驱动系统相比,欠驱动系统因其独立控制变量的减少使得需要的执行元件
重症肝病患者由于肝功能严重障碍,机体免疫功能低下,对感染应激能力下降,病程中易发生医院感染,而各种感染又进一步加重病情,直接影响患者的临床转归。综述了重症肝病患者医