基于差异的半监督学习中有关算法和理论研究

被引量 : 5次 | 上传用户:shengli46
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
传统的机器学习中,要获得一个良好的分类器需要足够的有标号数据。然而在很多现实任务中,如生物基因分析、Web数据挖掘等领域,随着数据收集和存储技术的发展,获得大量无标号的数据相当容易,而对数据进行标注却非常困难或者代价高昂。因此,如何在少量有标号数据上提高分类器的泛化能力,成为了当前机器学习领域倍受关注的重要问题之一半监督学习在有标号数据的基础上,结合无标号数据进行学习,可以有效地克服标注瓶颈问题,有着非常强的现实意义和广阔的发展前景。在半监督学习中,协同训练类算法对无标号数据的利用方式简单且易于控制,不需要额外的先验知识进行模型假设,便于结合现有的学习模型,是半监督学习中在实际应用取得广泛成功的一类算法。在另一方面,集成学习结合多个差异性的基分类器来提高系统的泛化能力,近年来出现了一些在集成学习中利用无标号数据的新算法。这些算法与协同训练类算法都是通过利用基分类器之间的差异来利用无标号数据,从而提高系统的泛化能力,我们把它们统称为基于差异的半监督学习算法。如何创造并有效利用基分类器之间的差异,以及如何控制伪标号数据中的噪声,是这类算法所面临的主要问题。本文主要基于协同训练算法,并结合集成学习,进行了一系列算法及相关理论方面的研究。主要研究内容与创新点可以归纳如下:第一,开展了在协同训练的框架下结合生成性方法和判别性方法的研究。通过这两类互补性很强的学习算法获得协同训练所需要的差异性,使协同训练算法不再依赖于现实中难以满足独立视角;本文还在协同训练算法中引入一种可回溯的机制,极大提高了对无标号数据利用的安全性。此外,本文采用一对线性权重参数来调节伪标号数据权重,避免了目标函数非凸而陷入局部最优解的问题,并定义了一个混合目标函数在迭代训练过程中动态估算权重参数的值。第二,在总结现有的协同训练类算法的基础上,本文提出一种更广泛意义上的多分类器、多差异来源的协同训练新框架Co-learning,并根据训练方式的不同提出两种具体的算法。此外,针对迭代训练过程中差异性减少的问题,本文提出一种通过操纵伪标号数据为基分类器创造差异的新方法。第三,研究了协同训练类算法和集成学习的结合,并根据集成方法的不同,提出两种针对性算法:SECL和PECL算法;提出一种结合置信度的投票边缘函数,用于伪标号数据的选择和最终分类。此外,本文还提出一种带权重的装袋算法,用于在迭代训练结束后生成分类器集合。第四,在理论方面,针对基于差异的半监督学习的特点,本文定义了一种分类噪音和分布噪音相混合的新噪声形式,HCAD噪声,并给出协同训练类算法在HCAD噪声下的概率近似正确(PAC)的理论分析;对于多分类器的结合,本文基于投票边缘函数,给出了在存在HCAD噪声的情况下,多分类器集成的泛化误差上界。
其他文献
在我国军队信息化建设的进程中,数字营区作为部队信息化建设的重要内容,其体系功能的完善是部队营区信息化建设的重要保证。本文设计了一种基于RFID(射频识别)技术的部队营区管理
1990年中国证券市场开埠以来,上市公司的融资结构与偏好始终是国内学术研究的核心问题之一。与发达市场“先内部再外部,重债权轻股权”的融资啄序不同,中国学者发现国内上市
中国证券市场经过30多年的发展后,而今到了发展的关键时期。与证券市场最初成立时候相比,增加了中小板市场和创业板市场,在走向多层次资本市场的道路上踏下坚实的一步。不同
<正>目的分析2012~2013年九江地区手足口病流行病学特征,为手足口科学合理的防控提供可靠的依据。方法运用描述性流行病学方法对九江地区手足口病的疫情资料进行分析。结果 2
会议
随着世界经济和社会的快速发展,传统的能源结构已经不能满足人们对能源的需求,人们的目光已经从传统的化石能源转移到可再生清洁能源上来,而风力发电是所有可再生能源中开发
目的:关于心脏超声引导下A-V及V-V间期优化与心脏再同步化治疗长期疗效关系的报道较少。本文探讨定期心脏超声引导下A-V及V-V间期优化在长期心脏再同步化治疗(CRT)中对左房重
随着成品油销售企业传统获利空间不断被挤压,市场压力不断增加,基于大仓储大物流的规划,通过优化措施来降低物流成本、完善物流管理、提高企业核心竞争力已成为所有成品油销
随着信息技术的发展,人们的生活方式发生了巨大的变化。电视购物作为无店铺零售的一种模式,将媒体和商品零售相结合,利用媒介渠道传递信息,消费者订购后再提供上门配送的服务
目的:探讨慢性肾脏病(chronic kidney disease, CKD)的相关危险因素及低密度脂蛋白胆固醇(low-density lipoprotein cholesterol, LDL-C)升高与肾功能进展的相关性。方法:采取
小菜蛾,学名Plutella xylostella(Linnaeus),属鳞翅目菜蛾科昆虫,是十字花科蔬菜特别是甘蓝类蔬菜上的重要害虫。小菜蛾肠道内,分布着各式各样的微生物,主要种类是细菌,且可能存在与