基于特征变换的协同学习方法

来源 :郑州大学 | 被引量 : 0次 | 上传用户:zjxtlgj
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在数据挖掘应用领域(如Web页面分类),收集大量未标记的实例已相当容易,而标记这些实例却需要耗费大量的人力物力。因此在有标记实例较少时,如何利用大量的未标记实例来改善学习性能已成为一个研究热点,半监督学习是其中一种主流学习技术,而协同学习又是半监督学习中有代表的一类算法。协同学习成功的关键在于构建准确而又有差异的基分类器,经典的协同学习算法有Co-Training、Tri-Training、COTRADE等。其中大多数的算法采用自助采样来构建此分类器,而自助采样不能够充分利用全部已标记实例集的信息,加之已标记实例本就特别稀少,使得学习到的分类器很难具有强泛化能力,从而影响了分类器的性能。为了缓解上面提到的问题,本文提出了一种基于特征变换的协同学习方法,选取Tri-Training算法作为代表,将特征变换应用于Tri-Training中。与传统的Tri-Training不同,该方法使用特征变换把全部已标记训练实例集映射到新空间,得到有差异的训练集,从而避免了自助抽样带来的问题。这样做的另外一个原因是:基于特征变换的方法更容易构建准确而又有差异的基分类器。为了充分利用数据集的类分布信息,本文构建了一种新的基于Must-link和Cannot-link约束集合的特征变换TMC(Transformation based on Must-linkconstrains and Cannot-link constrains),并将其用于基于特征变换的Tri-Training方法中。在UCI数据集上的实验结果显示:在不同的未标记比率下,相比于传统的Co-Training和Tri-Training算法,采用基于特征变换的Tri-Training算法总是在绝大多数数据集上具有更高的准确率。另外,较之于算法Tri-LDA和Tri-CP,基于TMC的Tri-Training方法表现出更好的泛化性能。
其他文献
目标识别与目标定位是计算机视觉领域的一个重要分支,随着数字图像在互联网上的爆炸式增长,基于图像局部特征的目标匹配开始在图像检索中占据越来越重要的地位,图像的整体分类已
分析和识别单体型对复杂疾病致病基因的精确定位有重要作用。单体型组装问题是利用个体DNA测序片段数据推出该个体一对单体型的计算问题。根据不同的优化准则,单体型组装问题
随着新农保的慢慢普及,传统的人工登记与发放模式对领取养老金资格审核工作带来了极大难题,有限的工作人员难以完成繁杂的审核工作;同时,农村及偏远地区的参保人员资格审查难以
近年来,网络技术不断发展,数据规模成几何增长,通过数据挖掘技术对原始数据提取分析,获得了有价值的知识。然而数据的隐私问题引起了挖掘应用者的高度重视,尤其是在分布式环境下。
在经济快速发展,人民生活水平稳步提升的新时代,网购已经成为当下最为流行的购物方式。化妆品作为日常生活用品,其需求量日益提升。然而,关于网购出现假冒伪劣的化妆品事件不
信息社会中我们需要依赖于各种各样的计算机系统,为了保存各类信息,从个人到整个社会如何存储海量数据显得非常重要。但计算机系统在处理能力快速提高的同时,存储能力成为制约计
在普适计算环境下,信息空间(虚拟世界)与物理空间(现实世界)高度融合,在这个高度融合的空间中,人们可以随时随地、透明地获得数字化的服务。随着普适计算研究不断地深入,普适计算所面
分形理论在通信、现代医学、流体力学、纺织科学、工业设计、文化艺术、计算机科学等学科也得到广泛的应用。形式化方法是一种基于数学方法的规约,技术和验证系统的工具。它不
粒计算融合了粗糙集、模糊集、人工智能等多学科研究成果,是研究复杂问题、海量数据挖掘和不确定信息处理等的一种有效工具。近年来,粒计算理论被广泛应用于人工智能、数据挖
随着网络通信技术与多媒体技术的飞速发展,数字多媒体数据的非法复制、处理和传播变得越来越容易。这样使得多媒体数据内容的盗版和侵权问题日益严重。如何保护数字多媒体内容