单视图协同训练方法的研究

来源 :南京大学 | 被引量 : 0次 | 上传用户:huangyulin2007
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在很多真实应用中,收集大量数据相当容易,但为大量数据提供类别标记则比较困难。因此,如何利用大量的、廉价的未标记数据来辅助提高学习器泛化能力成为机器学习和数据挖掘中的一个备受关注的重要问题。半监督学习试图不需人工干预地利用未标记数据来辅助提高泛化能力,目前已形成一个热门研究领域。协同训练是一种著名的半监督学习风范,它使用两个学习器相互标记样本的方式来利用未标记数据进行学习。传统协同训练技术依赖于两个“充分冗余视图”,即两个属性集,每个属性集都足以训练出一个强学习器,且两个属性集给定类别标记时条件独立。然而,真实问题往往不具有两个这样的视图,使得传统协同训练技术在很多真实问题中难以发挥作用。为了使协同训练技术在只具有一个属性集的常规数据上也能发挥作用,本文对单视图协同训练方法进行了研究,主要取得了如下创新成果:   (1)提出了单视图三分类器协同训练方法tri-training。该方法通过使用三个分类器,实现了高效的标记置信度隐式估计,既不要求数据具有双视图,也不要求采用特殊的学习算法。   (2)提出了单视图协同训练集成学习方法Co-Forest,并将其用于计算机辅助乳腺病诊断。该方法有效地利用未标记数据构建半监督集成,具有强泛化能力;应用表明,该方法可以显著降低乳腺病诊断的假阴性率。   (3)提出了单视图协同训练回归学习方法COREG。该方法克服了直接进行回归标记置信度估计的困难,可以使用不同配置的回归器有效地利用未标记数据提高回归学习性能。   (4)提出了单视图协同训练排序学习方法SSRank,并将其用于互联网搜索。该方法有效结合了排序学习与传统文档检索技术的优点,可以有效地确定未标记示例在排序中的相对关系;应用表明,该方法可以显著提高搜索结果的准确性。   (5)提出了基于数据审计的单视图半监督学习方法SETRED。该方法针对易受噪声影响的协同训练的特例——自我训练,在学习过程中引入数据审计技术,有效地缓解了学习过程中的噪声积累问题。
其他文献
在逆向工程中从实物模型采集而来的数据一般是以点云形式存在,采集所得的点云数据往往非常庞大,有的甚至达到了数以百万级、千万级乃至亿级。这些数据量巨大的点云数据具有结
在迅速发展的移动计算领域,广泛应用的嵌入式系统的结构和功能越来越复杂,能耗也越来越高。降低系统能耗对延长电池的使用时间起到重要作用。如何在满足功能和性能需求的前提下
学位
鸡蛋是人类重要的营养食品,其新鲜程度直接影响其价值。在销售、流通及加工方面,如能做到按新鲜度分级,则对生产、经营者的科学管理有重要意义。传统上鸡蛋的新鲜度检测多采用人
集成电路设计复杂度的不断增加,对于设计验证技术提出了新的挑战。传统的模拟方法已经很难满足工业设计的需要。因此高效、易用的形式化方法成为了近几年研究的热点。以模型检
论文将专家系统技术应用于信息安全风险评估领域,其目的是将已有的风险评估指标体系、评估方法等与专家系统技术结合,开发应用于军工信息安全风险评估的辅助工具,实现对信息
椭圆曲线密码体制是使用有限域上的椭圆曲线有限群代替基于离散对数问题密码体制中的有限群而所得到的一类密码体制。传统的基于有限域的离散对数问题因为可以使用指标计算方
网格技术是新兴的Internet信息技术,是下一代互联网技术研究与应用的重要领域之一。资源是网格中的主要对象,网格是协调管理地理上分布的各种资源,并为用户提供透明一致的访问接
随着Internet在政治、经济、文化等领域的快速发展,网络已经成为人们日常生活的一个重要组成部分。与此同时,网络安全问题也随之凸现,并成为企业网络应用所面临的主要问题,网
树木的年轮是一圈又一圈深浅相间的环,每一圈代表一年。采用人工的方法数出年轮来费时费力,随着计算机应用技术的发展,特别是图像处理技术的发展,使得快速得到树木的年轮特征
近年来,由于可扩展性好,性能价格比高和易于部署等特点,基于P2P技术的流媒体传输成为一种可靠的流媒体解决方案。同时,由于P2P系统中节点的动态性和异构性,它也成为流媒体研