【摘 要】
:
随着智能成像设备的普及和互联网的快速发展,图像数据呈现爆发式增长。然而,互联网上的大部分图像是没有对应的语义描述的,这使得人们很难有效利用这些图像信息。人工标注耗时耗力,而且存在个体差异。图像描述生成模型可以为图像数据自动生成相匹配的字幕,这广泛应用于智能搜索、人机交互等领域。近年来,随着深度学习算法被引入到图像描述生成任务中,模型生成的字幕质量显著提升,在个别指标上甚至超过人类。然而,现有数据集
【基金项目】
:
国家自然科学基金面上项目, 联合文本先验和多标注信息的图像深度视觉语义识别方法研究, 起止时间:2016.01-2019.12,项目编号:61571354; 国家自然科学基金面上项目,复杂环境下小样本高分辨雷达目标识别方法,起止时间:2022.01-2025.12,项目编号:62173265;
论文部分内容阅读
随着智能成像设备的普及和互联网的快速发展,图像数据呈现爆发式增长。然而,互联网上的大部分图像是没有对应的语义描述的,这使得人们很难有效利用这些图像信息。人工标注耗时耗力,而且存在个体差异。图像描述生成模型可以为图像数据自动生成相匹配的字幕,这广泛应用于智能搜索、人机交互等领域。近年来,随着深度学习算法被引入到图像描述生成任务中,模型生成的字幕质量显著提升,在个别指标上甚至超过人类。然而,现有数据集中单词分布的非平衡性,使得基于深度学习的模型应用于字幕生成时倾向于头部类词,这导致生成的字幕不够丰富和准确。本文从单词级别,字幕级别,以及二者混合的方式缓和图像描述生成中的非平衡问题。主要贡献总结如下:1)提出了基于非平衡分布单词重加权的图像描述生成方法。图像描述生成任务中的非平衡问题比分类任务中的非平衡问题更加复杂和困难,其非平衡问题更加严重并且存在不同频率单词在同一个字幕中共现的问题。因而现有的应用于分类任务的反转频率加权(IFW)方法和焦点损失(Focal loss)方法不能直接应用于图像描述生成任务,本章修改了方法使之适用于图像描述生成任务。相比较于基准模型,IFW和Focal在召回率、精确率和F1得分上均获得了提升。此外,本章提出了字幕级重加权(CLR)方法,依据字幕的非平衡度进行重加权。相较于其他方法,CLR取得了更高的精确率和F1得分。2)提出了基于非平衡分布单词解耦的图像描述生成方法。首先针对图像字幕中的不同频率单词共现问题,提出了掩膜解耦方法,将字幕中的单词依据训练词频解耦到不同的子集中。在解耦的基础上,提出了解耦长短时记忆模型(D-LSTM)和解耦知识蒸馏(DKD)方法。D-LSTM将不同子集中的单词解耦到不同的LSTM中,该模型证明了解耦的有效性。DKD为不同子集中的单词设计不同且合适的学习策略,如知识蒸馏和交叉熵。这使得模型在各个子集上都能取得较好表现,同时子集间单词分布更平衡。子集内部反转频率加权(S-IFW)方法可以与DKD方法相结合使得子集内更平衡。更平衡的数据分布可有效避免模型过配到高频词的生成上。与其他方法相比,DKD在召回率、精确率和F1得分上获得了更高的性能。3)提出了基于课程学习调整非平衡数据的图像描述生成方法。课程学习是解决非平衡问题的有效方法,主要方式是模型按照从简单样本到困难样本的顺序训练。对于IFW,按照单词词频设计了单词学习课程(C-IFW)。对于CLR,按照字幕非平衡度设计了字幕学习课程(C-CLR)。同时使用单词学习课程和字幕学习课程(DCL),相比于单课程方法在低频词的生成上有了进一步的提升。对于DKD方法,本章设计了数据集学习课程,通过替换数据的方法来设计课程(C-DKD)让模型在不同阶段侧重学习不同子集的单词,而且引入了损失衰减来消除教师模型的理论上界带来的消极影响。原来的方法结合课程学习后,对图像字幕生成的性能均有提升。
其他文献
随着现代产业链的发展,企业建立自己的采购管理仓库,并通过信息化技术进行采购仓储管理工作,能有效降低企业对第三方的依赖,保证企业供应链安全。企业采购仓储管理对系统安全提出了更高的要求,但采购过程中订单数量不大,人员相对固定,区块链技术在提高系统安全性的同时能够满足企业采购仓储管理服务的基本性能需求。本文设计并实现了基于区块链的仓储管理云平台系统。结合区块链的特性,为保证仓储管理系统的安全性,设计了一
随着航天技术的发展,人们对整流罩内的环境要求也越来越高,而保障其环境质量的主要手段之一是通过整流罩空调对进风参数进行控制。目前主流的空调控制方法是常规PID(比例积分微分)控制与模糊PID控制,但整流罩空调不同于其它空调,它对控制系统的准确性、稳定性、快速性要求极高,这两种算法由于自身的缺陷,很难满足整流罩空调的控制要求。PID控制需要精确的系统模型,但整流罩空调是具有时变性、滞后性和强耦合性的非
随着信息技术的发展,我国需要对农业的发展进行转变和改革。目前大力推动农业方面的信息化建设已成为我国发展的重要任务,这也是实现农村现代化较为重要的一步。网络中的数据以爆炸性增长,为了从海量数据中获取目标数据,搜索引擎应运而生,当前搜索引擎是人们快速获取信息的主要工具。搜索引擎的搜索结果匹配度又极其依赖于使用的分词方法,分词能力越好会得到更高匹配度的结果,同时高匹配度会大大缩短用户获取目标信息的时间。
近年来,随着深度神经网络和传感器技术的发展,自动驾驶成为了人们的研究热点。环境感知模块是整个无人驾驶系统的关键,其输出的精确度直接影响着下游模块,例如规划、决策和定位。为了提高自动驾驶系统环境感知的性能与可靠性并降低成本,相机-激光雷达感知融合技术受到了越来越多的研究者的关注。然而,激光雷达获取的点云深度图是不规则的无序的,这极大地制约了3D感知技术。为了解决上述问题,稀疏深度补全任务被提了出来,
随着近年来计算机领域的迅速发展,电子战在现代战争中的战略地位也日益重要,因此运用计算机实现作战仿真系统也逐渐被军队所使用。将武器装备通过计算机进行建模并构建作战仿真系统不仅能够快速推演作战方案,对验证武器装备可行性、组织作训人员进行模拟训练,提升作战经验等都具有很大的帮助。本文设计了基于组件化建模的水下仿真控制演练系统,该系统总体上采用标准化、层次化、模块化方法,各个功能模块之间低耦合,便于维护和
随着计算机技术和传感器技术的快速发展,红外图像以其具有的夜视范围广、抗干扰能力强、可全天候工作等优势,被广泛应用于军事和民用等领域。红外图像目标检测作为现代红外系统的核心技术,一直是图像处理领域的重要研究内容。近年来,随着深度学习技术在图像处理领域取得的卓越研究进展,有效推动了红外图像目标检测技术的发展。在诸多深度学习目标检测算法中,基于Anchor的回归型目标检测算法是经典算法之一,它可以直接将
随着深度学习的不断发展,神经网络,尤其是卷积神经网络已经广泛应用于各种计算机视觉任务中,与此同时,在传感器技术飞速发展的背景下,多类型传感器已经部署到大量应用中,比如视频监控和自动驾驶技术。因此,本文研究了基于CNN和小波变换的低光照图像增强算法,同时提出了一种基于多传感器协同和CNN的视频编码新范式。本文的主要贡献如下:1.在低光照条件下拍摄的图像动态范围较窄,色调较暗,信噪比低,而且图像中所含
在现代无线通信和雷达系统中,电磁波前赋形具有重要的应用价值和研究意义,通过波束赋形技术可以实现特定的远场方向图来满足实际应用场景的需求。电磁超表面作为一种平面型的人造复合电磁结构,由于具有剖面低、设计灵活、加工便捷、损耗低等明显优势在电磁波调控与设计领域成为研究热点,其表现出来的独特的电磁性能为实现对电磁波的完全控制提供了一种新的方案。本文主要研究电磁超表面对电磁波幅度和相位的同时调控机理,分别设
由于玻璃特殊的光学性质,日常生活中透过玻璃拍摄的照片通常会被反射遮挡,从而影响信息的获取,如何去除反射并恢复图像被遮挡的信息成为一个亟需解决且富有挑战性的任务。由于照片的首要关注点是人脸,所以带有反射的人脸图像会给观众带来更大的困扰。近年来,在具备丰富标记数据的前提下,基于深度学习的目标检测器取得了较好的性能表现。然而,数据标注通常是昂贵且耗时的。因此,能够从一个标记样本中学习一个泛化模型的one
图像是人们感受和理解世界的重要媒介,相比于文字和声音,图像承载着更加直观且丰富的信息。然而,在采集、处理和传输过程中,图像不可避免地产生失真和降质,增加了图像理解的难度。因此,需要设计图像质量评价算法解析图像降质的原因并量化其质量,从而为图像画质的增强和视觉体验的提升提供指导。本文从主观图像质量评价的特性出发,首先研究了主观图像质量评价中图像质量排序任务与评分任务的关联关系,并在此基础上设计相应的