基于双模调制的细粒度图像识别

来源 :电子科技大学 | 被引量 : 0次 | 上传用户:qq445057927
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
图像识别是计算机视觉领域最基础的研究方向之一,随着深度学习的不断发展以及卷积神经网络的大规模应用,通用图像识别任务的处理方法日臻完善,因此越来越多的研究者将目光投向更加细分的领域,细粒度图像识别问题就是其中一个热门的分支,在细粒度图像识别分析领域,通用的网络模型已经不能很好的满足任务需求,同时这一领域还在不断发展,越来越多的研究课题正在逐渐向现实生活中的实际问题靠拢。本文针对时尚领域的细粒度图像提出了一种新的双模态调制细粒度图像识别算法,其同时利用了数据的图像信息和属性信息。全文的主要工作如下:1.梳理了细粒度图像识别的研究背景、意义以及国内外研究现状,对相关的理论基础如卷积神经网络、图卷积网络、注意力机制、多模态学习等结构的原理与应用做了全面详细的介绍。2.探究了一类新的细粒度图像识别问题。本文所研究的细粒度图像识别问题相比于传统的细粒度图像识别问题增加了多标签属性,相对于单标签分类问题难度大大增加,也更加贴近实际生活场景。这一类问题可供公开研究的数据资源相对较少,因此关于这一类问题的相关研究并不多,本文则对此做了专门的探索研究。3.探索了不同的属性特征提取方法,设计了利用图卷积网络与深度游走两种方式提取属性信息特征,并通过对比实验结果对两种方式的优劣进行了详细对比;探究了多模态特征的交互方法,引入多模态信息融合的思想,将属性信息特征与图像信息特征两个不同模态的信息相结合,实现了跨模态信息调制。基于以上两点,最终提出了双模态调制的细粒度图像识别模型。4.在开源数据集上对本文提出的双模态调制模型做了消融性实验,证明了两条网络分支的有效性,并与已有的主流工作进行了对照实验并分析了实验结果。实验证明,本文提出的算法与已有工作相比在该数据集上能取得更好的表现。
其他文献
近年来大尺寸高性能复合材料凭借优秀的性能在航空航天领域的使用比例大幅度提升,因此针对大尺寸航天复合材料缺陷的非接触无损检测技术研发具有重大意义。本文结合大尺寸复合材料原位、外场、整体缺陷的检测需求,运用红外热波成像技术对复合材料在热激励下温度场变化信息进行采集,得到红外图像序列,根据红外图像序列中的温度的变化特性与检测需求,最终实现了对大尺寸复合材料完整检测结果的呈现并实现缺陷的定量检测。在此基础
目标跟踪是一种要求定位并持续跟踪视频片段中的目标的计算机视觉任务,由于在交通、医疗、安防等多个领域存在难以替代的应用价值,自诞生以来便广泛得到研究人员的关注。经过长期发展,目前主流目标跟踪算法可划分为两类:基于相关滤波的算法和基于深度学习的算法。前者兼顾优秀的运行效率和跟踪效果,后者则得益于神经网络强大的可塑性和海量训练数据,不断取得越来越瞩目的成绩。这两类算法均存在巨大的发展空间,同时也互相取长
随着红外小目标跟踪在国防军事、民用安全领域的应用深入,航迹关联技术备受挑战。空中平台导弹发射会产生航迹分裂,导弹命中空中目标会导致航迹合并,空中飞行物近距离接触后分离会产生航迹交叉。因此,研究红外背景下的多目标航迹关联技术具有重要的现实意义。目前,现有航迹算法存在多处不足,其一,存在维度爆炸问题;其二,航迹交叉重叠时易关联错误;其三,大多数算法不适合航迹分裂、航迹合并等特殊航迹关联类型。近些年来,
随着大数据时代的到来,传统的向量或矩阵的数据表示方法已经不能满足对目标各个属性进行完整的表达的需求。张量,作为向量和矩阵在高阶空间的拓展,一经出现便引起了广泛的关注。如果张量的每一阶都代表了目标的某一种属性,那么张量就可以自然而然地将目标的各个属性进行完整地表达。然而,因其数据量会随着阶数的增加呈指数增长,如何处理庞大的张量数据又成了一个难题。张量链分解算法可以将高阶张量分解为若干低阶张量的外积,
计算机仿真软件是产品创新和工业装备的核心技术之一,不仅对工业生产产生着巨大的影响,还在军工装备的研发和国防事业中发挥着举足轻重的作用,计算机仿真软件的发展水平可以反映一个国家的工业技术水平。针对电子科技大学计算机仿真技术实验室开发的有着自主知识产权的微波器件仿真软件MTSS后处理模块不够完善没有动画效果,不能直观展示模型的运动状态,不能实时观察正在仿真运行与仿真分析后模型的相应属性的动态变化规律问
糖尿病视网膜病变(diabetic retinopathy,DR)是糖尿病最主要的并发症之一,在早期发现DR并对其进行针对性治疗,对保护患者的视力极为重要。本文基于彩色眼底图像与荧光造影图像,对眼底图像的各类生理结构的分割与多类型DR病变的检测进行了研究。实现病变的检测后,依据图像中出现病变的类型对DR进行分级,实现了高性能的DR病变检测与分级辅助诊断系统,主要研究内容如下。(1)采用了一种基于形
实现人和计算机使用自然语言进行交互,是自然语言处理领域的一项重要工作。随着人工智能技术的发展,尤其是深度神经网络的广泛应用,构建基于开放领域的对话系统已经越来越受到人们的关注。互联网的快速的发展,累积了大量对话数据,使得由数据驱动的对话模型成为可能。目前的对话任务,大多仍然在生成式任务的大框架之下,而生成式任务一般都是序列到序列的。端到端的编码器-解码器模型是用于解决序列到序列任务的重要机制,对编
目标跟踪是计算机视觉的一个重要分支,在现代科技社会建设中起着举足轻重的作用,而红外场景下的目标跟踪常常应用在军事场景中,利用红外探测技术可以提前发现并锁定敌人的军事目标。本论文中的多目标密集场景下的红外成像视觉跟踪技术,要求对多个红外目标进行跟踪,且目标往往呈现为红外弱小状态,缺乏显著的颜色、纹理以及形状特征,而在跟踪中目标特征的提取十分关键,因此弱小目标的特征表示是小目标跟踪中的一大难题。另一方
目标检测是计算机视觉中的一项基础研究任务,试图解决图片中什么目标在哪里的问题,而复杂背景下的目标检测则进一步强调了此任务下场景、环境的多样性和困难性。目前,各种目标检测算法众多,并且已在自动驾驶、安防等领域得到了良好的落地应用,然而,应用越广对算法的可靠性要求也越高,但算法模型从大量的公共数据集中所学的特征分布并不能完全涵盖生活实际场景,在面临目标重叠拥挤、尺度的变化、光线变化等问题时,算法的性能
随着计算机视觉技术的发展,仅预测目标类别和位置的目标检测无法满足人们对人工智能系统日益提高的需求。复杂场景下多目标及其属性检测在智能可穿戴设备、机器人、自动驾驶等领域拥有更好的应用前景,本文主要研究基于深度学习的高效多目标及其属性检测算法,构建多目标及其属性检测数据集,以特征共享、多头注意力、特征提取模块等角度解决复杂场景下高效多目标及其属性检测问题。本文主要研究内容如下:(1)本文构建了适合复杂