无领域信息的跨领域适应算法研究

来源 :广东工业大学 | 被引量 : 0次 | 上传用户:goer
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着大数据时代的来临,人类的各种活动产生了大量的数据。这很大程度归功于入网设备和网络社交的普及。由于数据处理往往滞后于数据生成,大量的无标签数据无法得到及时处理。这些数据不应该通过人工标注获得类别信息,因为人工标注会阻碍数据处理。因此,常用做法是利用已训练好的模型把标注信息迁移到新增数据上。不过,由于这种模型往往具备领域专用性,这种做法的效果往往不尽人意。为此,无监督领域自适应算法被提了出来。这种算法试图从有标注的源领域数据中挖掘具备迁移性的类别信息,并把这些信息迁移到无标注的目标领域数据中,是当前最热门的一种研究方向。为了将这种算法应用到多个源领域中,这种算法又发展出了无监督多源领域自适应算法。不过,几乎所有的多源领域自适应算法都受限于领域可分假设,无法适用于混合源场景中。少量没有这种假设的多源自适应算法因为其他假设而适用于特定的应用场景中。本文基于类别同态假设提出了一种无领域信息的跨领域自适应算法。在这种假设下,不同的源领域有不同的类别分布和数据噪声模式,但所有源领域的同一类别有相同的数据产生机制。也就是说,存在一个特征转换函数,使得所有源领域的类别决策空间是一致的。如果这个空间和目标领域的隐空间是相似的,那么多个源领域的类别信息就能够迁移到目标领域上。为了得到这个特征转换函数,所提算法不仅约束输出特征具备类别信息,还要对齐源领域期望分布和目标领域分布。考虑到类别信息的流失问题,所提算法选择对齐领域的类内分布。为了对齐类内分布,本文采用了两种策略来评估分布差异。第一种策略是最小化总体均方离差,能够集中同类样本到一致的类簇中心。第二种策略是最小化最大均值差异,能够对齐领域之间的类内分布。在无监督情形下,目标领域的类别空间是不可访问的。因此,目标领域的训练样本事先通过模型获得伪标签。此外,考虑到特征转换函数可能比较复杂,所提算法采用多任务学习的方式训练卷积神经网络。对比实验表明,在没有源领域信息的帮助下,基于类别同态假设的跨领域适应算法总体上依然优于其他方法。此外,基于最大均值差异的策略要稍好于基于总体均方离差的策略。隐层特征的可视化结果表明所提算法能够很好地保留数据的类别信息,从而获得了鲁棒的性能。
其他文献
介绍导热餐具用纸的原料、助剂的选择,打浆工艺的确定以及涂布和特殊的机械加工方法,对试制成本进行了分析。
组织行为学的发展使得个体在组织中的作用越来越得到重视,管理者也逐渐认识到人力资源在企业中的关键地位。越来越多的实践表明,拥有高度敬业的员工对企业成功具有重要作用。
<正>电信企业是一个有机的生命体,处于外部生态环境中,与环境进行互动;自身也应构建起适应环境、符合管理规律的功能结构与运转体系。构建电信企业管理蓝图,能帮助电信企业管
在脱贫攻坚决胜阶段,防止脱贫又返贫现象的发生,巩固已有脱贫成果是实现全面小康社会的必要举措。为此,文章创新性地提出了脆弱性脱贫理论,以期能解释出现返贫现象的内在逻辑
园林绿化种植已经成为城市建设的重要组成部分,也是城市精神文明建设的重要支柱。本文主要探讨了园林种植设计中的植物选择、设计6要素以及园林种植设计的基本原则。
精准扶贫作为我国决战决胜全面建成小康社会的贫困治理创新举措,意义非常重大,其既是2020年前乡村振兴战略的重要内容,也是乡村振兴战略谋篇布局的基础工程。当前,我国的精准
席夫碱(Schiff-base)配体主要是指一类由醛或酮与胺通过缩合反应得到的,含有亚胺基(–CH=N–)或甲亚胺基(–CR=N–)的有机配体。近年来,以席夫碱配体为构筑单元或是将之功能化,去建
脑机接口(brain computer interface,BCI)是一项不依赖大脑常规信息通路就可实现与外界环境交流的技术,通过该技术可在人脑与计算机或其他电子设备之间建立一种直接的联系,使
精益物流管理在国有矿山企业中的运用为矿山企业物流现代发展的趋势。本文主要介绍如何在矿山企业建立精益物流管理组织模式,精益物流的质量管理以及如何对精益物流管理的效
现代诗歌是一种年轻的文学样式,它追求自由和个性,展现出别具一格的审美价值和艺术特色。现代诗歌作为教材中的四大文学类文本之一,对学生情感的熏陶、鉴赏能力的提升、创造性思维的发展等方面有着不可忽视的作用。笔者以部编本初中语文教材为例,在相关理论的指导下,确定了现代诗歌的教学要点,提出了现代诗歌教学的具体实施策略,希望可以为现代诗歌的教学实践提供参考。本论文分为三个部分:绪论部分,主要阐明本论文的研究缘