【摘 要】
:
随着计算机视觉的发展,图像分类技术的应用越来越广泛。传统的图像分类技术通常需要大量带标签的训练数据,而在现实生活中,收集有标签的样本存在许多困难。另外,面对未来新出现的类别,人类难以为其收集带标签样本。为了解决这些问题,零样本学习得到了广泛的研究。零样本学习旨在通过已知类训练模型,解决未知类的分类问题。但训练过程中只有已知类样本,因而存在数据不均衡的问题。近年来,许多方法采用生成对抗网络(GAN)
【基金项目】
:
国家自然科学基金面上项目《复杂过程系统虚拟样本生成方法研究》(No.61973024);
论文部分内容阅读
随着计算机视觉的发展,图像分类技术的应用越来越广泛。传统的图像分类技术通常需要大量带标签的训练数据,而在现实生活中,收集有标签的样本存在许多困难。另外,面对未来新出现的类别,人类难以为其收集带标签样本。为了解决这些问题,零样本学习得到了广泛的研究。零样本学习旨在通过已知类训练模型,解决未知类的分类问题。但训练过程中只有已知类样本,因而存在数据不均衡的问题。近年来,许多方法采用生成对抗网络(GAN),通过生成未知类视觉样本来解决这一问题。然而,视觉与语义特征之间存在间隔问题,导致这类基于生成对抗网络的方法并不能保证生成样本的质量。此外,目标类别语义描述之间的关联性不足也将影响虚拟样本的质量。为了解决上述问题,本文对基于生成对抗网络的零样本学习方法展开研究,主要内容如下:针对视觉与语义特征之间的间隔问题,本文提出一种基于空-频域特征融合的生成式零样本学习方法(GSFDFF)。1)该方法在GAN之后增加了重构器模块,当GAN利用语义描述生成虚拟视觉特征后,重构器再将其重新转义为语义描述。以此实现了视觉空间和语义空间的双向映射,缓解了视觉与语义之间的间隔问题。2)本文在GSFDFF的重构器模块中引入对轮廓信息与高频细节具有高度敏感性的Haar小波变换来提取样本的频域特征,并使用多层感知器来实现样本空间域特征和频域特征的融合。以此增强重构器的表达能力,使得重构器能够更好地学习视觉语义映射关系,进一步缓解视觉与语义之间的间隔。GSFDFF模型在CUB与SUN数据集上进行实验验证,结果表明,相较于非生成式或其他生成式模型GSFDFF的分类精度均有所提高,证明了所提方法的有效性。针对目标类语义描述之间关联不足的问题,本文提出一种基于内联知识图谱的多中心化生成式零样本学习方法(MCGIKG)。1)MCGIKG引入具有强大知识表征能力的知识图谱作为辅助,并将其同层级类别进行显式连接形成内联知识图谱,然后将其作为语义描述的补充输入GAN中,以此来增强目标类间语义描述的关联性。2)本文在MCGIKG训练过程中提出一种多中心正则项来约束生成器,使得生成的样本能够趋于不同的中心,丰富了虚拟样本的同时提升了语义描述的鲁棒性,从而间接增强了目标类间语义描述的关联性。MCGIKG模型在Image Net数据集上进行实验,结果表明,相比之前的方法基于内联知识图谱的方法对已知类与未知类的区分有着良好的效果,并且引入多中心正则项能够使模型取得有效的性能提升。
其他文献
甲状腺是人体内必不可缺的重要器官,它的功能是分泌甲状腺激素并作用于身体的各个器官。在医学领域,甲状腺功能异常会导致一系列疾病,其中包括我们常听到的甲亢、甲状腺癌等,对患者的身体健康和生理机能都造成巨大的威胁。超声检查成为目前诊断甲状腺相关疾病的主要方法,其具有快捷无创且灵活性高的优点。但是超声图像具有一定的局限性,不能直接描述甲状腺的位置并且图像的对比度较低,往往需要临床医生先根据超声图像对甲状腺
磁共振成像是常见的临床影像学技术,组织的局部比吸收率(SAR)是成像扫描的重要的安全指标。膝关节局部SAR的主要计算方法是通过构建人体膝关节模型进行电磁仿真,因此希望通过低场磁共振图像构建出可用于电磁仿真的膝关节模型。在这一过程中,对图像进行更准确的分割可使构建出的膝关节模型更接近真实人体膝关节的组织分布。另一方面,为了得到更准确的局部SAR值,需要构建出更长的膝关节模型。本文针对膝关节局部SAR
近年来,游戏行业的迅速发展带来了巨大的收益。但是,长周期和高成本使得游戏开发的风险不断提升,为解决此问题,游戏的程序化内容生成(PCG)技术应运而生。PCG技术利用算法快速生成游戏内容,从而减少人工成本,缩短研发周期,然而基于搜索、分形等传统PCG技术的实现较为复杂,且仍需较多的人工干预,为开发者提供的帮助有限。基于机器学习的PCG技术的出现在一定程度上缓解了这个问题,其通过模型训练代替算法设计,
随着数字信号处理技术的广泛应用,对数字信号处理器(DSP,Digital Signal Processing)的性能要求也越来越高。通常DSP中设计有专用的移位器,其性能直接影响DSP的运算速度和功耗。针对某型DSP研发项目实际需求,本文设计一款高性能DSP移位器。本文在分析某型DSP移位器指令的基础上,将DSP移位器指令分为六类:基础移位操作指令、位域操作指令、位流操作指令、位操作指令、定点浮点
生物医学实体关系抽取是一项重要的信息提取任务,旨在从非结构化的生物医学文本中抽取出生物医学实体关系三元组。针对生物医学文本的实体关系抽取方法能够帮助人们更好的获取文本中潜藏的生物医学信息,在医药研发、智能诊疗等诸多方面都有重要的应用价值。传统的流水线抽取存在误差传播等问题,因此本文针对生物医学文本特点对面向生物医学领域的联合抽取方法进行了研究,本文主要工作如下所示:(1)提出了基于BioBERT和
合成孔径雷达(Synthetic Aperture Radar,SAR)属于主动的有源遥感成像技术,具备在几乎任何天气状况下获取地表目标高分辨率微波图像的特殊能力。作为SAR图像解译的重点研究方向,基于SAR图像的自动目标识别(Automatic Target Recognition,ATR),尤其是通过深度学习实现的ATR,在车辆、船舶和飞机等目标的广域监测中发挥了重要作用。传统的SAR ATR
为保证汽车的机械故障得到良好维修,对汽车机械故障类型进行研究,进一步明确汽车机械故障的形成原因,比如零部件出现故障、人为影响因素、日常的维修养护不规范、润滑油问题等,提出具体的维修处理方案,可以取得较好的效果,以期为相关人员提供参考。
细粒度人脸认证的目标在于区分给定的极为相似的面部样本对是否属于同一对象,这使其非常具有挑战性。为此,本文采用度量学习技术研究细粒度人脸认证问题,并提出了三种度量学习方法来提高认证性能。针对如何有效区分相似面部样本的问题,提出了一种环形余弦相似度学习方法,其通过寻求一种线性变换,以尽可能扩大类内的余弦相似度,减少类间的余弦相似度,同时利用环正则化项自适应地将样本的范数学习到缩放圆。此外由于传统的度量
一张好看的证件照对于广大学生以及求职工作者来说总是一个加分项。往常人们需要费时费力的去照相馆拍一张证件照,照相馆产生一张标准证件照需要六个步骤:选择证件照尺寸、选择背景色、选择穿衣服装、相机拍照、美颜修图、输出证件照。在以上六个步骤中,通过相机拍摄得到一张肖像照是前提,其余的操作则需要通过专业修图软件达到。若用户需要不同尺寸、不同背景色、不同穿着和不同美感的证件照,则非常考验专业人员的修图能力。这
多目标跟踪(MOT)在自动驾驶及高级辅助驾驶中,主要负责检测和跟踪汽车行驶过程中可能出现的障碍目标。目前主流的方法为基于可见光传感器的多目标跟踪,但是该方法在灯光照明不足和恶劣天气的情况下具有不稳定性,即有较大概率无法检测与跟踪障碍目标,然而热成像传感器采集的红外图像具有对照明、天气等因素不敏感的特点。因此将热成像传感器与可见光传感器进行信息融合,使得融合图像中包含红外图像的温度信息与可见光图像的