基于样本去噪的协同训练算法研究

被引量 : 0次 | 上传用户：chenbenxia

【摘要】

：

半监督学习(Semi-Supervised Learning)利用少量昂贵的标记样本和大量廉价的未标记样本构建并强化分类器,它是一种非常重要的机器学习方法。近年来,半监督学习逐渐成为机器学

【作者】

：

邹细涛

【发表日期】

：

2015年期

【关键词】

：

半监督学习协同训练噪声过滤样本标记不确定性样本代表性和信息量

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

半监督学习(Semi-Supervised Learning)利用少量昂贵的标记样本和大量廉价的未标记样本构建并强化分类器,它是一种非常重要的机器学习方法。近年来,半监督学习逐渐成为机器学习的一个研究热点。在众多半监督学习方法中,协同训练(Collaborative Training)是一种取得较多研究成果的半监督学习范式。协同训练算法在训练样本的初始己标记样本集上,训练出至少两个分类器,然后,轮流地选定它们其中的一个为主分类器,其余的为辅助分类器,辅助分类器对未标记样本进行预测,并把它们预测置信度较高的样本标记提供给主分类器,主分类器在更新的有标记样本的基础上重新训练。协同训练算法由于能够综合利用同类样本的多个视图和多个分类器上的预测结果,通常能够获得较传统监督式算法更高的精度。然而,在多数协同训练算法中,尤其在算法初始阶段,由于有标记样本较少,在此基础上训练出的基础分类器初始分类精度通常比较低,对未标记样本进行预测时容易产生错误标记,为后续协同训练过程引入噪声数据,进而影响协同训练算法的精度。针对协同训练算法目前存在的问题,本文借助样本分布信息和主动学习中的样本选择策略,定义了样本标记不确定性、样本代表性等度量方法并把它们引入到协同训练算法中,进一步提高协同训练算法的效率和精度。论文主要工作包含如下2个方面：(1)提出了一种基于样本代表性的协同训练算法——EnCoTrain。为了减少协同训练算法噪声数据的引入,本文根据样本分布信息,定义了一种样本代表性度量,基于此度量提出一种具有噪声过滤功能的协同训练算法。具体来讲,在协同训练算法的每次迭代过程中,计算辅助分类器标记一致的未标记样本的样本代表性,将代表性最高的若干样本的标记提供给主分类器,在此基础上更新主分类器。为了验证本算法的性能,我们将EnCoTrain分别与标准协同训练算法Co-Training、 Tri-Training、Co-Forest等进行对比。在UCI数据集上的实验证明,该算法对多种协同训练算法的精度均有一定的提升作用。(2)进一步提出了一种基于样本信息量和代表性的增强协同训练算法Boost-CoTrain。本文借助主动学习中的样本选择方法,基于样本信息量和样本代表性,定义了一种能有效衡量未标记样本标记不确定性的度量函数,并将该度量函数用于传统协同训练算法。具体地,在协同训练的每次迭代过程中,将标记最不确定的若干未标记样本交由辅助分类器标注,并将标记后的样本用于主分类器的强化训练。在实验中,我们将Boost-CoTrain与标准协同训练算法Co-Training、只有样本信息量的Boost-CoTrain、只有样本代表性的Boost-CoTrain、无权值的Boost-CoTrain进行对比。实验结果表明,Boost-CoTrain算法有效提高了协同训练算法的性能。

其他文献

程丑夫治疗头痛验案3则

<正>本文主要介绍程丑夫教授从痰湿、肝郁、风火三方面治疗头痛的临床经验,通过燥湿化痰,通阳止痛;疏肝解郁,行气止痛;疏风清火,通络止痛等法审因论治,对头痛临床疗效显著。1

期刊

头痛中医药疗法验案

中亚留学生汉语“打”字的偏误分析及教学策略

现代汉语“打”字义项繁多,用法灵活,在交际与表达中出现频率极高。然而目前中亚留学生对汉语“打”字语义和语用功能的掌握程度尚有待提高。本文以对比分析理论、中介语理论

学位

中亚留学生汉语“打”字偏误教学对策

《资本论》中两大部类协调发展的思想及其当代价值

两大部类协调发展的思想是马克思社会总资本再生产理论的核心组成部分，他立足于19世纪中期的资本主义生产实际，深入研究社会再生产运动，揭示了人类社会再生产运动的一般规律。本

学位

马克思两大部类协调发展产业

肝脏γδT细胞抑制CCl4诱导的肝纤维化进程及其机制研究

研究背景肝纤维化(liver fibrosis)是一种常见的慢性肝脏疾病,是由多种致病因子导致的肝内结缔组织异常增生的病理变化过程,其引起的死亡率在发达国家中约占45%,持续的肝纤维

学位

肝纤维化γδT细胞NKp46细胞毒性CD137Crosstalk

民办汉语培训机构情况调查

由于汉语热的兴起,我国汉语国际教育事业迅速发展。国内的对外汉语教育领域主要由两部分构成——高校汉语教育和民办汉语培训机构的汉语教育。尤其受到国家开放政策和鼓励政

学位

民办汉语培训机构汉语教学SWOT态势分析

社会化问答社区的社会网络分析

互联网的发展和普及使人们获取知识的行为呈现明显的网络化趋势。社会化问答网站是近年来新兴的一种在线知识社区,保持着严谨、理性的“精英化”社区氛围,其高质量的社区内容

学位

社会化问答社区社会网络分析知乎

孟加拉汉语学习者初级阶段声调偏误调查及教学方法

随着中国与孟加拉国之间的合作交流日益增多,在孟加拉学习汉语的人也越来越多,孟加拉国对汉语教师需求量也相应增大,在这样的背景下,笔者无比幸运地成为了汉语教师志愿者,在

学位

声调教学偏误调查孟加拉汉语学习者教学策略

浅析体育游戏在学前教育教学中的应用研究

学前教育中最重要的课程之一为体育游戏,有助于提升学前儿童的团结能力、运动能力,与此同时还可以加强其自身健康水平,使其良好的生长发育。现阶段体育游戏对锻炼学前儿童至

会议

体育游戏学前教育教学

赴俄孔子学院汉语教师志愿者培养模式研究

论文以赴俄孔子学院汉教志愿者培养模式为研究对象,通过作者亲自调研,并结合对以往汉教志愿者访谈,全面描述了当前汉教志愿者培养模式的现状,并针对培养模式各个环节(如选拔

学位

孔子学院汉语教师志愿者培养模式方案

程丑夫教授治疗外伤性癫痫经验

外伤性癫痫（post traumatic epilepsy,p TE）是脑外伤后脑部神经元反复异常过度放电所引起的突然、短暂、反复发作的中枢神经系统功能失常的慢性疾病,属脑损伤后的并发症,是常见

期刊

外伤性癫痫黄连导痰汤肝风痰热证脾虚凝证六君子汤程丑夫

基于样本去噪的协同训练算法研究

其他学术论文