面向跨领域文档分类的异构迁移学习算法研究

被引量 : 0次 | 上传用户:zhangyiyuxia
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
传统的机器学习方法通常存在两个主要问题,一个是数据独立同分布的基本假设前提,在实际应用中并不成立;另一个是目标领域的训练样本稀缺,难以训练出一个具有良好泛化能力的模型。迁移学习是一种新的异构机器学习方法,在文档分类、情感分类、协同过滤、计算机视觉、网络搜索排序等领域都有着广泛的应用。它能在源领域与目标领域的数据分布不同但相关的条件下,通过挖掘源领域和目标领域的隐含的共性信息,实现知识在异构领域间的迁移和重用,极大地降低获取目标领域数据标签的昂贵代价。在异构迁移学习的实际应用中,普遍存在领域异构、视图异构和背景知识异构等不同形式的数据异构问题。本文主要关注异构迁移学习研究,即如何挖掘异构数据(领域、视图、背景知识等)之间隐含的共性知识,实现异构数据之间的知识迁移。针对领域异构问题,本文提出了一种基于最大间隔的核均值匹配的迁移学习算法。针对双异构(领域异构和视图异构)问题,本文提出一种新的多视图迁移学习算法,实现知识在领域和视图之间的迁移。同时,针对跨领域文档分类问题,本文提出一个结合文本内容和链接结构的主题挖掘算法,挖掘文档隐含的主题结构。针对背景知识异构问题,本文提出新的辅助链接网络构造方法,挖掘文档之间隐含的共引用关系。具体而言,本文主要贡献如下:1.基于最大间隔的核均值匹配的迁移学习算法在领域异构方面,针对跨领域迁移学习中存在的实例权重估算问题,本文提出了一种KMM-LM的算法。KMM-LM算法的基本思想是:结合源领域数据的类标签知识,希望在一个基于最大间隔的优化框架中,同时寻找最优分类超平面以及源领域实例权重向量,两者之间彼此互补且约束,调整形成一个良好的循环,达到共同最优。KMM-LM模型将核均值匹配法(KMM)和支持向量机(SVM)这两个独立的阶段,整合并优化成一个基于最大间隔的模型(KMM-LM)。这样能同时找到分类超平面的最优权重向量,和源领域的最优权重向量。2.基于多视图的迁移学习算法在领域异构和视图异构方面,针对跨领域的迁移学习应用中,如何衡量不同领域之间的领域差异,以及如何增强多个视图之间的一致性的问题,本文提出了一个新颖的简称为DV2S的迁移学习算法。DV2S算法的思想是,将异构领域的距离差异和多个视图之间的一致性,集成到一个两视图的SVM框架中去考虑,从而能够在最大分类间隔、最小领域距离和视图不一致最小化,三者之间取得最优和平衡。算法首先用投影的最大平均差异法(MMD),分别度量文本内容和文本链接两个不同视图中的跨领域距离;同时,根据不同视图的分类器预测输出估算视图的不一致。然后,将领域距离和视图不一致性集成在一个两视图的SVM模型中。该优化问题可以转换成线性约束的二次优化问题,进行高效求解。3.基于辅助链接网络的迁移学习模型在背景知识异构方面,如何让有效地利用网络上大量异构的在线背景知识,来帮助提高迁移学习的性能,这个重要且新颖的研究问题。为此,本文首先深入研究了在线背景知识是否能够用来帮助跨领域的迁移学习,以及怎样有效利用在线背景知识来缩小领域的差距和提高迁移学习的性能。然后在分析基础上,本文提出了一种基于辅助链接网络的迁移学习模型。该方法的思想是,借助辅助链接网络,将背景知识嵌入到一个图核中,可以更好地挖掘原始数据集中源领域和目标领域隐含的共性知识。通过挖掘辅助链接网络的共引用关系,不仅可以有效降低数据特征的稀疏性,丰富文档的表示,而且通过共享文档引入了新的领域共享特征,有助于填补领域之间的差距。4.基于多视图的主题模型的迁移学习算法在领域异构和视图异构方面,针对跨领域文档分类中,因忽略了文档之间的链接结构,从而导致共有知识挖掘不完整的问题,本文提出了一种新颖的主题模型(TMV),以互补地融合了文本内容和文本链接信息两种视图进行迁移学习。TMV的主要思想是:在不同领域的文档,可能会从内容信息和链接结构的角度,共享一些潜在的共同主题。这样就可以相互加强对共同主题的识别,从而提高异构领域的分类性能。所以,本文将文档之间的内容信息和链接信息合并且集成到一个统一的概率模型,从模型中挖掘出隐藏的通过链接关联的共享主题。基于这种共享主题结构,TMV模型实现了在不同领域之间有效的知识迁移。实验结果表明,本文提出的上述异构迁移学习算法具有较好的数据分类精度,其原因在于,这些算法结合考虑了领域实例、特征、背景知识、视图一致性、链接隐含主题等诸多数据异构因素。虽然本文提出算法目前主要应用于跨领域的文档分类处理,但也很容易扩展应用到其他领域,例如:图像分类、情感分类、协同过滤、网络搜索排序等。
其他文献
慢性鼻-鼻窦炎(chronic rhinosinusitis, CRS)是耳鼻喉科临床上的常见病、多发病,以前组鼻窦发病率为高,其中又以上颌窦发病最为常见,筛窦次之。常见症状有鼻塞、鼻脓性分泌
目的:评价赤蒲颗粒治疗子宫内膜异位症(寒凝血瘀证)的有效性和安全性,并进行临床有效剂量的探索,为其推广应用提供依据。方法:采用分层区组随机、双盲、多中心、对照组设计,将2
为考察洱海调蓄多塘湿地对磷的截留特征及效果,选取流域内12个调蓄多塘湿地进行定期跟踪调查,评估湿地中磷的截留性能,识别调蓄多塘湿地中磷的截留特征,解析调蓄多塘湿地中磷
近年来,跨境电商蓬勃发展,带来的“普惠贸易”需要更多的跨境电商创业型人才。人才紧缺是目前制约产业发展的瓶颈。跨境电商行业对复合型人才的诉求,包括掌握国际贸易专业知
目的:观察克糖灵颗粒治疗2型糖尿病气阴两虚型患者临床疗效,初步探讨其降糖机制,从而为克糖灵颗粒在临床进一步推广提供可靠依据。方法:选取符合2型糖尿病气阴两虚型诊断标准的
随着水产养殖业的不断发展,抗生素在水产养殖上的应用越来越广泛,抗生素的应用有效地控制了许多水产疾病的发生,极大地促进了水产养殖业的发展。但是,由于抗生素的使用容易
改革试点一年多以来,全省各地试点法院或人民法庭探索出离婚冷静期、婚姻家庭考试卷等新做法,在获得当事人、社会各界肯定的同时,也听到了一些不同的声音,有人说这些做法干涉了婚
报纸
<正>近年来,河南省根据"十二五"规划《纲要》有关医疗卫生重点工程安排,紧紧围绕深化医改工作整体部署,在国家的大力支持下,坚持"保基本、强基层、建机制",切实加强以县级"三
目的:观察平肝养心法治疗老年不稳定型心绞痛肝阳上亢心脉失养型的临床疗效。方法:将60例老年不稳定型心绞痛肝阳上亢心脉失养型患者随机分为两组,治疗组30例,在常规治疗的基础上
第一条为了发挥我省科技优势,促进科技成果转化为现实生产力,规范科技成果转化活动,加速科学技术进步,推动经济建设和社会发展,保障科教兴省战略目标的顺利实现,根据《中华
报纸