基于实例与特征的迁移学习文本分类方法研究

来源 :西南大学 | 被引量 : 0次 | 上传用户:pigdun
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着网络与信息技术的迅猛发展,网络信息呈现指数级增长,如何从海量数据中快速有效地获得所需信息,已成为一个亟需待解决的问题,而文本分类技术恰好是解决该问题的有效手段之一。文本分类通常是通过机器学习实现,并且要求训练数据与测试数据具有相同的分布。然而,在实际应用中,这种要求往往不能满足。由于时间或者场景的变化,会导致训练数据过期,训练数据与测试数据分布产生差异,已学习到的分类模型将不再适用。迁移学习作为一种新的学习方式可以有效的解决该问题。本文以文本分类为研究背景,重点关注基于实例与特征的迁移学习,提出两种适用于文本分类的迁移学习方法。针对基于实例的迁移学习方法TrAdaBoost在训练过程中与目标数据很不相似的源数据(对分类作用不大的数据)一直被保留的问题,提出一种训练集优化及动态重构的迁移学习方法。该方法将训练集进行聚类,结果是簇内数据间相似度较高,簇间数据相似度较低,过滤掉没有与目标数据聚在一起的源数据即实现训练集优化。在TrAdaBoost方法中设置源数据权重下限值,训练过程中动态删除低于该值的源数据,并且保证源领域数据占有一定的比例,实现训练集的动态重构。结果表明,提出的方法能够将源领域中对分类作用不大的数据剔除掉,提高文本分类正确率。针对基于特征的迁移学习方法TPLSA只考虑领域共享主题而忽略领域独有主题的不足,提出一种基于领域语义相关性挖掘的迁移学习方法。该方法首先挖掘领域共享主题与独有主题,计算共享主题与领域独有主题的相似度,领域独有主题之间的相关性,独有主题映射矩阵。然后,构造新特征空间,将源领域文本在新特征空问中进行表示,表示由文本在共享主题上分布与在源独有主题上分布两部分组成。目标领域文本在新特征空间的表示同样两部分组成,一部分是文本在共享主题上分布,另一部分是文本在目标领域独有主题映射到源领域独有主题上的分布。最后,在新特征空间中,对源领域数据进行训练得到分类器,用其对目标领域的文本进行分类。结果表明,提出的方法同时考虑领域共享主题与独有主题,能克服TPLSA只考虑共享主题而忽略独有主题的缺陷,分类正确率较TPLSA有所提高。将本文提出的训练集优化及动态重构的迁移学习方法以及基于领域语义相关性挖掘的迁移学习方法,在SRAA、20Newsgroup、Reuters-21578数据集上进行实验。与传统分类方法进行比较,实验结果表明了迁移学习的有效性,与迁移学习方法TrAdaBoost、 TPLSA分别进行比较,实验结果表明了提出方法的可行性以及优越性。
其他文献
随着计算机技术、多媒体技术的发展,附带光盘的图书越来越多,带盘图书是图书馆馆藏中新出现的一种复合型文献,对它的分类、编目、管理没有专门的国家标准。在丰富高校馆藏的同时
下一代网络NGN (Next Generation Network)是基于分组技术的网络,能提供多种业务,是适合在分组交换网上提供实时语音和多媒体业务的软交换网络。VoIP(Voice over IP)就是利用
人类的情感从心理学角度上主要指人的心理反应。西方有的学者把情感分为基本的六种:羡慕、爱、恨、欲望、愉快和悲哀。而国内一直流行着“七情六欲”之说,《礼记-礼运》说:“喜
近年来,随着多媒体技术和计算机网络的飞速发展,图像检索技术已逐渐成为一个非常活跃的研究领域。图像检索技术可以分为两类,一种是基于文本的图像检索技术(text-based image re
人脸特征检测在人脸识别,智能人机交互等诸多领域都扮演着重要的角色。为使上肢残疾的人士和计算机之间的交互变得无障碍,本论文提出了一种用摄像头代替传统手动操作鼠标作为
数据挖掘作为一个新兴的多学科交叉应用领域,正在各行各业的决策支持活动中扮演着越来越重要的角色。随着当前IT技术、电子商务及互联网的快速发展和迅速普及,导致在各个应用领
数据挖掘,简单地说,就是从庞大的观察数据集中提炼并分析出不能轻易察觉或断言的关系,最后给出一个有用的并且可以理解的结论。粗糙集理论是一种处理模糊和不精确问题的数学工具
互联网作为20世纪发展最为迅速的技术之一,已经成为现代信息社会最重要的基础设施,成为国家进步和社会发展的重要支柱。随着光通信技术和宽带无线通信技术的快速发展以及新一
随着企业信息化程度的不断提高,企业之间应用程序的集成需求越来越多。由于企业系统开发的随意性,所使用的数据结构和对数据的表达方式多种多样,信息的采集与交换的难度可能不亚
图像分割是数字图像处理中的一项关键技术,它使得其后的图像分析,识别等处理阶段所要处理的数据量大大减少,同时又保留有关图像结构特征的信息。由于分割中出现的误差会传播至高