论文部分内容阅读
在传统的机器学习方法中,训练集与测试集通常来自于同一分布。但是迁移学习所研究的问题是如何将源域样本集迁移到不同分布的目标领域,并辅助训练目标域模型,从而提高模型的训练效果。近年来,迁移学习逐渐成为了研究热点,并产生了一定的研究成果。决策树算法是常用的分类算法之一,但是在迁移任务中,决策树分类算法的相关研究却很少。针对这一现象,本文主要研究传统决策树分类算法在迁移任务中的改进。本文将迁移成分分析法与CART算法相结合设计了TCA_CART算法,并将其用于迁移学习中多分类问题的研究。同时分析了TCA_CART算法的不足,在此基础上利用K-means聚类算法对其进行改进。改进的方式是在决策树的分支过程中对样本数据进行聚类操作,将部分与目标域样本特征相似但是标签不一致的源域样本数据进行剔除,从而得到适应目标域的决策树分类器。随后通过对TrAdaBoost算法以及TrBag算法进行分析,指出了传统的基于样本的迁移学习中存在的缺陷,并通过Bootstrapping技术对源域样本进行选择,同时给出了用于对目标域数据进行分类的算法。最后,本文将所设计的决策树迁移算法拓展至随机森林。将Bagging与随机选择特征子空间方法相结合作为构建随机森林的基本方法,将迁移树构建算法以及源域样本选择算法作为森林子树建立的基础算法,尝试将随机森林改进为迁移森林。实验表明所设计的算法具备了较好的稳定性以及较高的分类正确率。