基于决策树分类器的迁移学习研究

来源 :西安电子科技大学 | 被引量 : 0次 | 上传用户:sdszsh122
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在传统的机器学习方法中,训练集与测试集通常来自于同一分布。但是迁移学习所研究的问题是如何将源域样本集迁移到不同分布的目标领域,并辅助训练目标域模型,从而提高模型的训练效果。近年来,迁移学习逐渐成为了研究热点,并产生了一定的研究成果。决策树算法是常用的分类算法之一,但是在迁移任务中,决策树分类算法的相关研究却很少。针对这一现象,本文主要研究传统决策树分类算法在迁移任务中的改进。本文将迁移成分分析法与CART算法相结合设计了TCA_CART算法,并将其用于迁移学习中多分类问题的研究。同时分析了TCA_CART算法的不足,在此基础上利用K-means聚类算法对其进行改进。改进的方式是在决策树的分支过程中对样本数据进行聚类操作,将部分与目标域样本特征相似但是标签不一致的源域样本数据进行剔除,从而得到适应目标域的决策树分类器。随后通过对TrAdaBoost算法以及TrBag算法进行分析,指出了传统的基于样本的迁移学习中存在的缺陷,并通过Bootstrapping技术对源域样本进行选择,同时给出了用于对目标域数据进行分类的算法。最后,本文将所设计的决策树迁移算法拓展至随机森林。将Bagging与随机选择特征子空间方法相结合作为构建随机森林的基本方法,将迁移树构建算法以及源域样本选择算法作为森林子树建立的基础算法,尝试将随机森林改进为迁移森林。实验表明所设计的算法具备了较好的稳定性以及较高的分类正确率。
其他文献
随着中国经济的蓬勃发展,面向中小企业的信息系统软件市场一片繁荣,但是当前这类信息系统的开发过程仍旧存在诸多问题──工期长、软件质量低,没有完善的配套质量保证手段等
随着数字电视、网络视频流等技术的飞速发展和广泛应用,对数字多媒体信号的存储,处理以及传输的要求变得越来越高,视频压缩技术逐渐成为媒体、广播的最基本组成部分。另一方面,近
语义Web作为目前Web的一个延伸,目标是使Web上的数据具有机器可识别的语义,便于人机之间的交互与合作。然而其实现面临着语义互联、规范组织和智能聚合等理论和技术障碍。为了
本论文是对作者毕业课题研究的一次全面论述和介绍,论文首先介绍了课题的研究背景以及论文的结构。Internet已经成为当今和未来人们获取所需资源和信息交流的主要场所,随之而来
本文首先分析了当前校园网络管理中存在缺乏有效的管理手段、自动处理能力不足、忽略对局域网管理等问题,指出造成这些问题的一个重要原因是缺乏网络拓扑自动发现能力。本文按
随着软件工业的飞速发展,软件的安全日益重要,传统的软件加密、代码模糊化、数字指纹和数字水印等技术已经无法有效的保护软件的完整性安全。软件自检测防篡改技术针对传统软
随着Internet和个人计算机的普及,科技文献的数量以指数的速度激增。如何从科技文献中抽取出有用的信息以供快速、准确地从浩瀚的信息资源中寻找到所需科技文献是十分有意义
无线网络是最近几年兴起的一项新技术,包括无线局域网和无线广域网。随着技术的进步和成本的降低,无线上网也逐步流行起来,不同的无线网络所覆盖的范围,提供的网络带宽也不相
随着人类社会的发展和交流合作的深化,人们要求计算机不仅解决传统的计算问题,也要辅助多个用户之间的合作。计算机支持的实时协同编辑反映了人们对计算机功能要求的改变,它
软件系统所基于的计算机硬件平台正经历从集中封闭的计算平台向开放的Internet平台的转变。未来的基于Internet平台的软件系统会形成一种与当前的Internet类似的Software Web