基于TrI-training的半监督学习算法研究

来源 :山西大学 | 被引量 : 0次 | 上传用户:jmgxy
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
半监督学习是一种应用驱动而产生的机器学习方法,已经成为人工智能和模式识别领域的研究热点之一。作为该领域的主要分支,半监督聚类将给定的少量监督信息引入最优聚类的搜索过程中,来改善算法性能;半监督分类试图挖掘无标记样本所隐含的有用信息来辅助分类器的训练。近年来,研究学者们不断提出了各种半监督聚类或分类方法,并将其应用于自然语言处理、图像处理和生物特征识别等实际领域中。  Tri-training算法作为协同训练机制的代表性算法,虽然能够利用分类器完成对无标记样本的标注,但是它需要给定足够多的有标记样本来保证初始得到的分类器具有较大的差异性,同时也无法处理监督信息中包含成对约束的情形。  因此,鉴于上述不足,本文以Tri-training算法为出发点,研究当给定不同形式的监督信息时,如何有效选取并标注无标记样本,来实现半监督聚类和半监督分类。  主要内容包括以下三个方面:  (1)针对监督信息中既给定有标记样本又包含成对约束的情形,设计了一种基于Tri-training的半监督聚类算法。该算法首先结合Tri-training方法,选取某些无标记样本并提供类别标记,来增加原始有标记样本的数量;然后利用样本间的约束关系来优化扩充得到的有标记样本集,以改善其质量;最后根据优化后的有标记样本集来获取K-Means算法所需的类中心,同时在聚类的过程中,运用成对约束对每一次的划分结果进行调整。通过与K-Means、Seeded-K-Means和COP-K-Means算法的比较实验表明,提出的算法能够充分利用给定的监督信息,并得到较好的聚类结果。  (2)针对监督信息中只给定少量有标记样本的情形,提出了一种基于Tri-training和少量标记样本的主动半监督分类算法。该算法借鉴主动学习思想,从无标记样本集中选取最有可能被错误标记和最有可能代表类特征的样本,交由专家用户进行标注,来增加原始有标记样本的数量。对比实验表明,当给定的初始有标记样本数量很少,Tri-training算法无法取得满意的效果时,提出的算法能够获得具有较好分类能力的学习模型。  (3)针对监督信息中只给定成对约束的情形,给出了一种基于Tri-training和成对约束的主动半监督分类算法。该算法运用样本间的约束关系从中选择有价值的样本交由专家用户进行标注,来得到有标记样本集;同时在半监督分类的过程中,利用成对约束优化每次用于重新训练分类器的有标记样本集,以提高数据使用的安全性。实验结果表明,与Tri-training方法相比,提出的算法能够有效处理监督信息包含成对约束的半监督学习情形;同时,与未引入成对约束优化机制的方法相比,提出的算法不仅提高了预测精度,而且受参数变化影响较小,性能较稳定。  针对给定不同形式的监督信息,本文的研究成果为如何开展有效地半监督学习研究提供了参考,也进一步扩展了Tri-training算法在实际领域中的应用前景。
其他文献
该文在原有的智能决策系统结构的基础上,结合决策支持新技术提出了智能决策系统的新框架,并对实现此框架的各部分关键技术作了较为深入的研究,探讨了其实现的可能性.
多弧离子镀是在真空电弧和离子镀技术基础上发展起来的一种新式镀膜技术。近些年,随着其工艺的逐渐完善,以其离化率高、散射性好、膜层致密以及附着力强等优点,在冶金、机械加工
机器人作为20世纪人类最伟大的发明之一,代表了当今社会最先进的智能控制技术。仿人机器人作为系统结构最复杂、集成度最高、与人类最为相似的一类机器人,代表了最先进的机器
论文在分析了药芯焊丝拉丝机的机构、特点以及在拉制过程中影响焊丝张力因素的基础上,建立了各机架分部数学模型、机架间张力的数学模型和整机的数学模型.并在此基础上,分析
城市交通系统与城市发展息息相关,对人类文明演化起到不可替代的支撑作用。但近年来,随着大量人口向城市集中和城镇化进程不断加速,交通压力越来越大。而旧有的城市交通改善方法
该文对工业CT局部找描的重建算法及其在计算机上的实现进行了研究.论文介绍了研究背景,通过比较分析,定出了将平行束扫描方式下的局部图象重建作为课题的研究内容.
多任务学习用于同时学习多个相关任务,通过联合学习,它既保持了任务间的差异性又充分利用其相关性,从而从整体上提高所有任务的学习性能。多任务学习引起了很多学者的关注,基于不
基于图像的物体定位是计算机视觉领域的一个重要内容,在诸如机器人导航和虚拟现实等领域有重要的应用价值。本文对基于点对应的物体定位方法进行了比较系统的研究,包括多解性,解
模式分类是机器学习和模式识别的核心问题,而特征表示和分类器设计又是模式分类的关键步骤。大量的特征提取方法以及分类器模型被相继提出并在实际问题中得以广泛应用。然而绝
基于视觉的定位方式是机器人领域应用较为普遍的定位方式之一,目前已得到了国内外众多科研工作者的广泛重视,具有较为广阔的应用前景。基于普通视觉的定位方式视野狭窄,路标检测