【摘 要】
:
新颖值检测是指对与数据集中的目标类别有明显差别的观测值的识别。目的是为了识别出检测过程中没有在训练过程中出现的,或者与训练数据某些方面存在明显差距的数据。作为一个具有广泛应用价值的研究领域,图像新颖性(异常)检测的效果随着近年来深度学习的火热发展得到了很大的提升。检测和识别图像或视频中的异常是一种极具挑战性和有意义的工作。该任务是具有挑战性的,因为通常情况下,在一些实际场景中难以完全获取关于图像异
论文部分内容阅读
新颖值检测是指对与数据集中的目标类别有明显差别的观测值的识别。目的是为了识别出检测过程中没有在训练过程中出现的,或者与训练数据某些方面存在明显差距的数据。作为一个具有广泛应用价值的研究领域,图像新颖性(异常)检测的效果随着近年来深度学习的火热发展得到了很大的提升。检测和识别图像或视频中的异常是一种极具挑战性和有意义的工作。该任务是具有挑战性的,因为通常情况下,在一些实际场景中难以完全获取关于图像异常的先验知识,同时却要求所构建的新颖性检测模型能够在无监督的条件下学习区别不同图像中的差异。在现实中应用场景也非常多,比如在现代化智能制造工厂中,可用于检测产品的瑕疵和缺陷;在生物医学领域,可用于发现医疗影像中可能存在的病变;在交通安检领域,可用于发现包裹中的违禁品;在智能安防领域,可用于检测出视频中发生的不正常事件等。受生成对抗网络(GAN)的启发,因其独特的生成器-判别器结构,为基于深度学习的新颖性检测算法提供了新思路:训练中GAN只需要学习正常样本的数据分布。测试时,根据重构图像与原始图像间的差距来判断输入是否为异常样本。而Vision Transformer(ViT),是Transformer在计算机视觉领域的一个应用,有效克服了卷积归纳偏差所带来的局限性问题,更加有利于在一定规模数据上学习知识。基于上述思想,本文提出了一种对抗性训练方法来检测端到端可训练深度模型中的分布外样本。为此,本文联合训练两个深度网络R和D。后者充当着检测器的作用,而前者在训练过程中,通过创建对抗性例子来学习目标类的数据分布,并在测试过程中,协助后者更高效地检测新颖性类。本文基于上述该思想,进行如下新颖性检测的研究:(1)提出的基于对抗-Transformer的新颖性检测模型;(2)对原始数据进行数据增强,在不大幅度实质性地对样本数据数量进行增加情况下,让有限的数据产生相当于更多数据的价值,实现数据的最大价值化,以提高模型的性能。为了验证上述模型的性能,本文使用公开数据集MNIST和Caltech-256进行图像的新颖性检测,而后,在UMN和UCSD数据集上进行了视频帧新颖性检测的实验。实验表明了本文提出的模型在这些数据集上达到了较高的水平。
其他文献
随着比特币等数字货币的蓬勃发展,区块链技术作为其核心机制具有去中心化、可靠性、数据不可篡改、交易匿名性和开源可编程等特点,逐渐在金融、物联网、身份认证和数据共享等诸多领域得到研究和应用。然而,区块链的基础理论和技术研究尚处于初级阶段,在诸如安全、效率、资源、博弈等方面仍存在问题需要进行深入研究。区块链的安全问题包括数据安全、共识安全、隐私安全等方面,是影响整个体系架构可靠性的根本问题。本文主要研究
机器学习和深度学习等算法被广泛应用于各个领域,将算法与医学领域结合在现实中会极大帮助病人数据的研究.改进药物作用机制预测算法有利于更准确地进行药物作用机制定位,从而大大减少医生工作量,促进药物研发.本文对哈佛大学提供的病人的一些基因和细胞的特征以及206种药物作用机制进行了一些描述性统计分析,探索变量之间的相关性.本文使用主成分分析对特征进行了线性组合,提取出关键的互不相关的特征,与此同时去除掉低
钢管混凝土柱由于受压力学性能良好、施工方便,已经在土木工程结构中大量使用.耐腐蚀及耐火性能较差,轴压时钢管易向外局部屈曲是其主要不足.ECC(Engineered Cementitious Composite)是一种具有多裂缝开展和应变硬化特征的纤维增强水泥基复合材料,具有延性好、韧性高、耐久性好等优点.用带纤维编织网增强ECC层来加固钢管混凝土结构,可克服上述不足(耐火性能不足、钢管易屈曲),同
随着中国城市化速度越来越快,智能交通系统作为物联网、人工智能、大数据等技术在交通领域的重要应用,也逐渐成为缓解城市交通拥塞、提升出行效率的重要手段。准确高效的短时交通流的预测在智能交通系统的构建中扮演着关键的角色。由于交通流容易受到许多因素,如天气、道路情况等影响,数据往往呈现出相当的随机性和不确定性。如何高效、稳定、精确地进行短时交通流的预测仍然是一项具有挑战性的工作。交通流模型预测精度的提升受
现代社会中,随着经济的增长,电力需求也逐步加大,从而需要不断完善销售环节当中的差别电价,实现电力的中长期交易,鼓励电力用户、售电用户和发电企业通过集中竞价来协调市场化运作方式。由于写字楼的用电规模很大,如果按规则参与电力市场交易,需要有效的电量预测来进行用电需求申报。当写字楼申报的用电需求与实际用电偏差在2%范围内,那么不必承担偏差费用,否则,则需要按照规定的补偿单价进行缴纳电费。因此,针对该问题
电影市场的发展愈来愈壮大,电影信息过载是人们面对挑选电影时的一种困扰。近年来对于电影推荐的研究正在逐步推进。协同过滤电影推荐过于依赖用户历史数据,存在数据稀疏和冷启动问题。基于内容的推荐不能对新用户适用,且电影特征需要大量人工标注,且难以挖掘用户的新兴趣点。基于知识图谱的推荐难点为针对不同的场景,难以界定如何构建一个好的知识网络。基于人口统计学的电影推荐存在泄露用户隐私的风险,且推荐的粒度过度不能
在三维Dirac半金属中,导带和价带在k空间中的Dirac点处相互接触,其周围具有线性且依赖于k的能量色散关系,这种不寻常的能带结构导致该点附近费米能级周围的电子表现出相对论性粒子的性质。而且Dirac半金属所具有的高磁阻率,高迁移率等优秀的性质也使得其在实际生产应用中有着重要意义。本文利用基于密度泛函理论的从头计算方法,预测了一个可能的Dirac半金属Sr Ag Bi,并对计算得到的电子结构构建
对话情绪识别(Emotion Recognition in Conversation,ERC)任务旨在识别对话中每一句话语的潜在情绪。这项任务作为自然语言处理(Natural Language Processing,NLP)的新兴研究方向,正受到越来越多研究者的关注,在诸如社交媒体中的意见挖掘、基于心理分析工具的医疗保健系统以及具备情绪感知能力的对话机器人等应用领域有着广泛而重要的作用。虽然ERC
情感计算是与情感相关、来源于情感或能够对情感施加影响的计算,其概念于1997年被正式提出。由此,如何准确识别人的情绪逐渐成为情感计算研究中的一个热点问题。目前用于情绪识别的信号主要包括两大类:主观行为信号(包括面部表情、言语、眼动信号等)和客观生理信号(包括脑电信号、心电信号等)。主观信号的采集相对方便,但受文化背景的影响较大;客观信号能更准确地反映人的情绪变化,但获取方法较为复杂。鉴于主客观信号