【摘 要】
:
近年来,深度学习图像分类算法发展迅速,并在实际应用中取得了巨大的成功。然而,有监督深度学习模型需要使用大量有标记数据和多轮迭代来进行训练。其高昂的标注成本严重限制了传统方法在全新类别的场景中的应用。更重要的是,针对这些特殊类别的大量标注样本可能很难或者不能获得,因此需要大样本数据来训练模型的条件从本质上限制了它们预测新出现的(例如,新出现的设备)或稀有(例如,稀有动物)类别的能力,从而使得原有模型
论文部分内容阅读
近年来,深度学习图像分类算法发展迅速,并在实际应用中取得了巨大的成功。然而,有监督深度学习模型需要使用大量有标记数据和多轮迭代来进行训练。其高昂的标注成本严重限制了传统方法在全新类别的场景中的应用。更重要的是,针对这些特殊类别的大量标注样本可能很难或者不能获得,因此需要大样本数据来训练模型的条件从本质上限制了它们预测新出现的(例如,新出现的设备)或稀有(例如,稀有动物)类别的能力,从而使得原有模型很难应用于需要进行个性化定制的场景。同传统深度学习的算法模型相比,人类非常擅长通过学习很少量的样本,并通过推理来获取分类新类别中物体的能力。例如,孩子们可以仅从书中的单个图片概括“斑马”的概念,动植物学家可以通过极少的图片资料识别珍惜物种。针对仅可提供较少训练样本数量的场景,国内外在近年内涌现出大量的工作,这些工作致力于研究如何让深度学习模型在每个类别只含有少量样本(1个或者5个)的条件下仍能正常的完成图像分类任务,即小样本图像分类问题。该问题的研究对深度神经网络模型在长尾数据的场景使用和模型的泛化性探索有着较大的研究意义。当前主流的研究方向可以分为基于生成模型的方法,基于收集优化器的方法,基于分类器参数生成器的方法,以及基于度量分类器的方法。本文聚焦于基于度量分类器的方法之上,并得到两个研究成果,即基于自适应参数调节器机制(AIDA)和基于跨模态知识增强机制(CKEM)。现有的跨模态的小样本图像分类算法存在严苛的前提假设,即用户需要在使用的时候提供全新类别准确的文本描述,但这个假设往往很难在现实生活中得到满足。为了放松该限制条件,在本文中提出的基于跨模态知识增强机制通过对齐类别层级的跨模态图的方式建立视觉类别原型和文本类别原型之间的关系,再通过图神经网络消息传递机制来赋予模型自行检索和利用图中相关文本类别原型中包含的额外信息的能力;在元学习训练的过程中,模型会根据训练时遇到的元任务上的模型表现来对参数进行调整来得到鲁棒的模型参数分布。然而,在基于度量分类器的小样本学习算法中,最终模型的性能表现可能由两个不同的因素导致的,其一为由定义类别使用的样本过少导致的“meta-shift”问题,其二为特征提取器训练不充分的问题;在第一种情况下,如果模型过度的调整参数,则会在元学习任务中出现过拟合的情况。于是在本文中,我们基于自适应参数调节器机制通过判断当前模型误差的主要来源,并依此调整每次梯度回传的力度,来防止在元学习训练阶段由采样误差导致的导致过拟合问题。为了验证方法的有效性,我们将新提出的方法分别在小样本图像分类常用数据集mini-ImageNet数据集和tiered-ImageNet数据集中进行验证。结合CKEM模块和AIDA方法,经典小样本图像分类算法,原型网络(Prototypical Network),在两个数据集上均观察到1%-2%的分类准确度的提升。该结果验证了两种方法的有效性。除此之外,我们还基于AIDA开发了对应的原型系统,让用户可以根据少量的自定义图片来轻松通过浏览器来识别全新物体。
其他文献
无人机、自动驾驶等越来越多的领域都需要设备小型化和功能多样化,并且需要同时具有雷达传感功能和通信功能,这产生了对雷达和通信一体化设计的强烈需求。同时随着雷达系统和通信系统的快速发展,两者不仅在运行频段上逐渐产生了重合,并且在系统结构上也出现了很多相似点,这让实现雷达通信一体化系统成为了可能。本文研究了基于正交频分复用(Orthogonal Frequency Division Multiplexi
近几年来,在人脸识别领域,基于深度学习的人脸识别的性能比人类还要好,并且已经被广泛应用到很多现实场景中,如手机解锁、机场安检等。因此,研究真实世界中人脸识别模型的安全问题尤为重要。ArcFace作为性能堪比商业级人脸识别系统的开源模型,部分学者已经验证并实现了在真实世界中对该模型的白盒逃逸攻击,但暂未验证是否可以实现难度更高的白盒模仿攻击。本文为探究上述问题,以基于ArcFace模型的人脸验证系统
行人检测是计算机视觉领域的一项重要任务,其在车辆辅助驾驶、视频监控、智慧交通以及智能机器人等领域都有着巨大的研究价值和应用前景。近年来,基于卷积神经网络的行人检测算法快速发展,行人检测模型的性能不断提升。然而,高精度的行人检测模型往往存在模型体积较大、计算成本较高和检测实时性差等问题,难以适应行人检测各种应用场景的要求。本研究旨在提高行人检测算法的检测精度与速度,并结合模型压缩技术降低模型的部署成
中国移动通信技术的显著进步使得基于无线定位的位置服务(LBS)有了更大的发展空间。相较于GPS等卫星定位系统,基于无线网络的终端无线定位具有成本低、方便快捷的优势,并且在紧急救助、网络优化等领域以及疫情防控方面都有着突出的表现。本文主要研究基于指纹库和无线测量报告(MR)的室外用户定位问题,并设计开发出一个用户定位系统。具体地,本文针对指纹库定位中离线阶段指纹库的快速高效建立和在线阶段更加合理准确
在现代通信中,认知无线电展现出了其强大的生命力。将认知无线电与自组织网络相结合,既符合认知无线电的特点,也符合自组织网络的要求,于是认知自组网(Cognitive Radio Ad Hoc Networks,CRAHNs)的概念就此诞生。认知自组网由于其强大的适应性,可以被用在各种网络场景中,例如抗震救灾网络、物联网等。其动态的网络拓扑结构是影响其网络性能的重要因素。故而,研究认知自组网的网络拓扑
基于中餐图像识别的研究一直是计算机视觉领域的热门研究方向,未来将在智能家居、智慧医疗健康等领域具有很好的应用前景。随着深度学习的蓬勃发展,中餐图像识别发展迅速,但由于中餐图像的复杂性和背景噪音等问题,如何高效准确地提取中餐图像关键语义特征、对多目标中餐图像精确高效检测、基于图像对食物进行热量预测等问题仍然是一个巨大的挑战。针对这些问题,本文的主要研究工作如下:针对单目标中餐图像识别问题,提出一种基
第五代移动通信(5G)系统承诺为用户提供大容量、低时延和超高可靠的通信服务,然而在高速铁路、商用航空等高速移动场景下,5G给人们带来的实际体验却差强人意。究其原因,主要是由于通信终端或散射体高速移动所致的多普勒问题易造成严重的时间选择性衰落,进而恶化系统的误码性能并降低通信容量。针对以上问题,本文通过研究高速移动场景中的5G链路级增强技术,提出对抗多普勒扩展的有效方案以显著提升时变信道的通信质量。
随着我国通信技术的高速发展,通信网的规模不断扩大,复杂度也随之提高,网络中任何设备发生故障都可能导致与之关联的设备一同产生告警,从而引发越来越多的告警数据,这样的情况使得运营商网管人员无法及时且准确地定位故障,为通信网的维护带来很大困难。对通信网进行故障预测可以及时排查网络问题,提升网络运维效率,对通信网管理有着至关重要的意义。论文针对传统通信网故障预测方法缺乏灵活性、精度低的问题,将告警相关性分
随着无网络区域临时网络覆盖和热点区域补充网络覆盖的需求增加,地面蜂窝通信网络无法精确、及时地满足上述需求。凭借高移动性、灵活部署、高经济效益等优点,无人机网络有望突破传统地面蜂窝网络限制,为目标区域网络覆盖提供新的可能,因此近年来受到学术界和产业界的广泛关注。然而,无人机网络的小区平均吞吐量、边缘用户速率、平均用户速率等性能,难以通过理论分析和外场测试部署获得。为此,本文搭建了面向无人机通信组网的
钙钛矿纳米线腔内的激子-光子的强耦合作用由于具有较大的拉比劈裂能量和激子结合能,是制备室温极化激子的理想材料。尽管如此,仍需探索新的方法来促进激子-光子的耦合强度,以维持激子和光子的相干性。表面等离激元可以通过减小有效模式体积和增强局域电场的强度来增强激子-光子耦合。我们的工作探究了一种存在于由无机-有机钙钛矿纳米线,二氧化硅(SiO2)薄膜,以及银(Ag)薄膜组成的三明治式的杂化结构内的激子-光