论文部分内容阅读
随着网络与信息技术的迅猛发展,网络信息呈现指数级增长,如何从海量数据中快速有效地获得所需信息,已成为一个亟需待解决的问题,而文本分类技术恰好是解决该问题的有效手段之一。文本分类通常是通过机器学习实现,并且要求训练数据与测试数据具有相同的分布。然而,在实际应用中,这种要求往往不能满足。由于时间或者场景的变化,会导致训练数据过期,训练数据与测试数据分布产生差异,已学习到的分类模型将不再适用。迁移学习作为一种新的学习方式可以有效的解决该问题。本文以文本分类为研究背景,重点关注基于实例与特征的迁移学习,提出两种适用于文本分类的迁移学习方法。针对基于实例的迁移学习方法TrAdaBoost在训练过程中与目标数据很不相似的源数据(对分类作用不大的数据)一直被保留的问题,提出一种训练集优化及动态重构的迁移学习方法。该方法将训练集进行聚类,结果是簇内数据间相似度较高,簇间数据相似度较低,过滤掉没有与目标数据聚在一起的源数据即实现训练集优化。在TrAdaBoost方法中设置源数据权重下限值,训练过程中动态删除低于该值的源数据,并且保证源领域数据占有一定的比例,实现训练集的动态重构。结果表明,提出的方法能够将源领域中对分类作用不大的数据剔除掉,提高文本分类正确率。针对基于特征的迁移学习方法TPLSA只考虑领域共享主题而忽略领域独有主题的不足,提出一种基于领域语义相关性挖掘的迁移学习方法。该方法首先挖掘领域共享主题与独有主题,计算共享主题与领域独有主题的相似度,领域独有主题之间的相关性,独有主题映射矩阵。然后,构造新特征空间,将源领域文本在新特征空问中进行表示,表示由文本在共享主题上分布与在源独有主题上分布两部分组成。目标领域文本在新特征空间的表示同样两部分组成,一部分是文本在共享主题上分布,另一部分是文本在目标领域独有主题映射到源领域独有主题上的分布。最后,在新特征空间中,对源领域数据进行训练得到分类器,用其对目标领域的文本进行分类。结果表明,提出的方法同时考虑领域共享主题与独有主题,能克服TPLSA只考虑共享主题而忽略独有主题的缺陷,分类正确率较TPLSA有所提高。将本文提出的训练集优化及动态重构的迁移学习方法以及基于领域语义相关性挖掘的迁移学习方法,在SRAA、20Newsgroup、Reuters-21578数据集上进行实验。与传统分类方法进行比较,实验结果表明了迁移学习的有效性,与迁移学习方法TrAdaBoost、 TPLSA分别进行比较,实验结果表明了提出方法的可行性以及优越性。