基于条件生成模型的零样本学习方法研究

来源 :广东工业大学 | 被引量 : 0次 | 上传用户:houhx
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在传统的图像分类问题中,训练一个模型需要依赖大量完备的标注数据。然而,随着现实世界的数据量不断增长,对数据进行人工标注变成了一项极其繁琐冗杂的工作。零样本学习可以有效缓解上述问题,具体而言,零样本学习可以在没有不可见类图像或视觉特征作为训练输入的情况下,利用有限的语义信息,对不可见类图像进行预测分类。因此,研究零样本学习可以使得算法、模型减少对图像类标签的依赖,减少人工标注数据的时间成本,极大地提高相关工作的工作效率。许多基于生成模型的零样本学习方法通过结合VAE、GAN等生成网络,利用不可见类的语义嵌入生成具有标签的实例,将零样本学习问题转换为有监督学习问题。然而,这些方法无法充分利用有限的语义嵌入合成具有高质量的实例。此外,这些方法明显存在对可见类的偏见问题。因此,本文利用现有的条件生成模型技术,提出两种新的方法解决零样本学习问题,其创新之处概述如下:本文提出了一个基于映射转换的零样本学习。该方法结合了度量学习以及GAN和VAE模型,能够拟合与真实分布相似的特征分布。首先,将VAE模型以异步方式训练,并对其设计了一个优化的推理过程,训练过程稳定,能有效缓解生成器坍塌问题。此外,该方法引入了第三方编码空间,通过第三方编码空间实现对特征进行重组,使得同类的特征存在相互依赖关系,并且可以使得所有视觉特征仍能保持原有的编码空间,促进生成器的生成能力。最后,该方法引入潜在空间的循环映射,缩小对可见类的映射空间,缓解对可见类的偏见问题。本文提出了一个基于分层变分自编码器的零样本学习。该方法主要由生成模块和特征核心代理组成。首先,该方法在传统VAE的基础上设计了一种新颖的生成模块,能够更好地拟合的真实的可见类的视觉分布。此外,针对多层次之间潜在变量的KL散度计算,设计了一个轻量化计算方法,有效提高生成模块的表现力。最后,提出了基于特征核心代理,通过加强类间可分离性和减少类内分散性,减轻对可见类的偏差问题,极大地提高了分类准确度。四个标准数据集上(AwA1,AwA2,CUB,SUN)的实验结果表明,本文所提出的两种方法在经典零样本学习和广义零样本学习中,均取得了优异的分类性能,很好地补充与完善了当前基于生成模型的零样本学习的研究。并且,本文分别对两种方法进行了实验分析,证明了两个方法内部的模块可以有效提升零样本学习的准确度。
其他文献
<正>近年来数字人民币在中国大陆发展迅速,使用场景由向公众派发数字红包、当地零售消费付款到公共服务缴费等,目前试点城市已多达23个,覆盖了全国1/5的人口。为了深化数字人民币的应用,2022年4月,深圳市地方金融监督管理局印发《深圳市扶持金融科技发展若干措施》,
期刊
聚类是无监督学习中一种方法,它可以把数据切分成多个组别,并让较为相似的数据样本分到同一组别内。但是,传统的聚类方法大多是基于单个视角的数据,在多视角数据环境下往往不能取得令人满意的聚类性能。为解决这个问题,便提出了多视角聚类。多视角聚类的目的是整合多个视角数据的信息,获得更加本质的样本关系,进而求解出更加准确的分组。多视角图学习聚类是多视角聚类中的一类方法,该类方法会先学习出一个相似度图,并利用该
学位
从观测数据中推断出变量之间的因果关系是当今数据科学研究的热点。随着科学技术的不断进步,金融经济、社交网络、智慧医疗、大数据智慧城市等领域通过互联网交互产生了海量而复杂的数据。如何从这些观测数据中有效地挖掘出有价值的信息,探索数据中潜在的因果机制在科学研究的可解释性和辅助决策等方面都起着重要作用,它促进了很多科学领域的研究进展,如生物医学、社交网络、金融领域等。近年来,出现了很多从观测数据进行因果结
学位
传统互联网在服务质量、资源利用率、管控能力和传输效率等方面暴露出诸多弊端,智融标识网络通过全网多空间、多维度资源的智慧融合实现网络资源的灵活分配和个性化服务的按需供给,为新型网络架构提供一种可行的研究方向。在智融标识网络中,通过引入控制器集群可以有效解决单一控制器存在的可扩展性和可靠性问题。但当控制器与交换机的映射关系是静态配置时,波动的网络流量会导致集群负载分布不均,部分控制器可能过载以及响应时
学位
<正>数字人民币搭载以区块链作为底层技术的智能合约,是最为重要的创新之一,随着数字人民币试点的不断推进,智能合约的应用场景也越来越广泛。智能合约具有信用塑造功能,央行借助智能合约可以巩固货币的国家信用,提升履行职能的效率。文章通过梳理货币智能合约的技术架构与运行逻辑,发现治理货币智能合约存在的难题,据此从监管模式、监管重点、监管科技等方面提出对策,以提升数字人民币的治理水平。
期刊
行人重识别(Person re-identification)是一种利用计算机视觉技术进行行人图像检索的技术。随着人工智能技术的兴起,行人重识别技术得到了极大的发展。基于神经网络的行人重识别技术,需要先从各个摄像头中收集大量的行人图像,并对大量的行人图像进行标注。随后利用已标注的行人图像进行深度网络的学习,最终获得一个行人图像的检索器。但这类方法始终面临着各种困难:深度网络的学习需要大量的训练样本
学位
光频率梳由一系列离散等间距的周期脉冲序列组成,由于其频谱谱线数量多,而且谱线频率间隔相同,能够精准的测量未知频率,在激光雷达、光通信、天文学中有着大量应用。在正常色散区基于非线性Kerr效应产生的光频率梳具有平坦性好,泵浦效率高,相干性好等特点。基于非线性Kerr效应产生光频率梳主要有基于无腔光纤/光波导或微环谐振腔两种方式,本文研究了双频激光泵浦无腔非线性光波导基于超连续谱展宽产生光频率梳,以及
学位
离散事件系统是指由离散的事件触发而引起状态转移的一类动态系统模型。了解当前的运行状态对系统安全尤为重要,状态估计的可测性研究是离散事件系统的一个重要研究方向,并被成功应用于自动控制系统。在现实生活中,系统的状态和事件往往具有模糊和不确定的主观性,模糊集引入到自动机为模糊离散事件系统奠定理论基础,在生物医学和自动控制系统中具有广泛应用。本文研究了模糊离散事件系统下的当前状态和初始状态的可测性问题。针
学位
聚类分析是数据挖掘领域中的重要研究方向。在过去的数十年中,出现了大量聚类算法,其中,谱聚类由于其在非线性可分的数据中的优异表现而被广泛应用。此外,随着互联网的不断发展,网络中产生的数据也越来越多,形成大数据。因此,如何将谱聚类算法应用到大数据中,挖掘其中的有用信息变成十分重要的研究课题。然而,谱聚类算法存在严重的可伸缩性问题,谱聚类需要极高的时间复杂度和极高的空间复杂度来计算和存储相对应的拉普拉斯
学位
目的:探讨翻转课堂护理带教对产科胎心监护操作技能的影响。方法:选取2018年至2022年入职产科的新护士为研究对象,在胎心监护操作技能培训中使用翻转课堂护理带教模式,共计50人次。比较翻转课堂护理带教前后新护士的胎心监护知识、操作技能考核评分、对教学模式的认可程度以及学习能力变化。结果:翻转课堂护理带教后,新护士在胎心监护知识、操作技能考核评分高于带教前,学习能力评分高于带教前,差异均有统计学意义
期刊