基于集成学习的多标记学习算法研究

来源 :东南大学 | 被引量 : 3次 | 上传用户:guosl1987
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在传统机器学习算法中,一个样本仅对应单个类别标记。而现实世界中,一个对象往往同时具备多个语义信息。为了对这些多义性对象进行建模,多标记学习算法应运而生。在多标记学习范式下,每个对象以一个示例来描述其特征信息,并以一个与之对应的标记集合来描述其语义信息。集成学习作为一类重要的机器学习技术,可以有效提升学习算法的泛化性能。本文将集成学习技术用于求解多标记学习问题,主要做了如下两方面的工作:一方面,现实世界的很多应用都可以轻易地获取大量数据,而获取这些数据的真实标记却极为费时且昂贵,该问题在多标记学习中显得尤为突出。因此,通过对未标记数据的利用来提高学习系统的性能具有重要的研究价值。本文对传统的协同训练半监督学习方法进行扩展,提出了一种新的多标记半监督学习方法COINS(CO-training for INductive Semi-supervised multi-label learning)。相比于已有直推式多标记半监督学习方法,COINS可以实现归纳式学习建模且具有更好的泛化性能。另一方面,多标记学习中各类别标记往往具有其独特的性质,为每个标记构造反映其特性的类属属性是求解多标记学习问题的一类重要技术。LIFT算法通过聚类的方式获取每个标记的类属属性以提高系统性能,但忽视了多标记学习中尤为重要的标记相关性。本文通过聚类集成的方式将标记相关性引入类属属性的生成过程,提出了基于聚类集成的类属属性多标记学习算法LIFACE(multi-label learning with Label-speclfic Fea Tures viA Clustering Emsemble)。相比于LIFt算法,LIFTACE算法可以有效利用聚类集成机制获得更好的泛化性能。本文共分为五章。第一章主要介绍多标记学习的基本概念、研究现状,以及仍有待研究的问题;第二章给出多标记学习的问题定义,并针对有待研究的问题分析讨论了5种已有的多标记学习算法;第三章和第四章分别介绍两种基于集成学习的多标记学习算法,即基于协同训练的半监督多标记学习算法COINS以及基于聚类集成的类属属性多标记学习算法LIFTACE,并给出相应的实验结果;最后,第五章对全文做总结。
其他文献
随着人们生活水平的提高,居住空间陈设的需求越来越旺盛,利用绿色植物进行居室环境绿化与装饰已成为一种消费时尚。本文从不同场所的使用功能、不同立体空间的摆放、不同植物
县域经济需要从传统的内部资源依赖方式向获取外部高级要素从而支撑创新驱动发展的方式转变。通过设立产业引导基金,对县域要素进行市场化配置和产业导入,继而带动人才和技术
目的:检测类风湿关节炎(rheumatoid arthritis,RA)患者血清葡萄糖-6-磷酸异构酶(glucose-6-phosphate isomerase,GPI)水平,分析其与基质金属蛋白酶(matrix metalloproteinase
自20世纪90年代以来,国家级新区建设发展取得了显著成效,地区生产总值约4.5万亿元,以占全国约0.2%的土地面积,承载约4.5%的地区生产总值,对区域经济发展发挥了较强拉动作用。
会计核算是企业内部的信息采集、汇总、加工、处理系统,而预算管理是企业内部的任务计划、资源分配和业绩考核系统。随着市场环境的变化,我国的会计环境也发生了一定的变化,在企
高速公路路面工程的特点是材料占投资比例大于其他工程,因此,材料的管理就成为直接影响效益的关键,那么如何在保证工程质量的前提下,节约材料,控制成本,做好物资管理工作呢,本文就这
结合国家天然林资源保护工程及伊春林区林业生产经营指标,以顺利河林场为例,探讨了红松母树及其种子承包经营管理的模式,分析了该模式下的红松母树经营管理的效益。
本文以ABAQUS/Explicit显式有限元求解器及其子程序为基本工具,利用非线性有限元动力学理论。基于热力耦合作用对某大口径火炮内膛磨损后的弹带挤进过程数值研究做了几个方面
目的:探讨金标法在无偿献血工作初筛中的价值。方法:金标法初筛合格的献血者献血后留取全血,分离血清用ELISA法作HBsAg检测,并进行对比分析。结果:5975例献血者血液金标法初筛合
如今随着我国林业建设不断加强与深化完善,林业经济管理发展战略也十分明确,在有效经济管理战略促使下,如何从林业经济可持续发展方面出发,从而通过有效的深化,不断提升林业经济发