【摘 要】
:
传统的显著性目标检测方式依赖领域专家提供先验知识人工提取特征,基于深度学习的显著性目标检测方式相较于传统检测方式可以自动学习多尺度特征,具有省时省力的特点。但是在受限存储设备下仍存在模型过大导致部署不便,模型训练周期较长、检测的实时性有待提高,复杂背景下模型对于显著性目标的定位不准确、边缘模糊等问题。因此如何以更低的时间和空间复杂度,高效且准确的定位分割出显著性目标物体成为显著性检测研究中极具挑战
论文部分内容阅读
传统的显著性目标检测方式依赖领域专家提供先验知识人工提取特征,基于深度学习的显著性目标检测方式相较于传统检测方式可以自动学习多尺度特征,具有省时省力的特点。但是在受限存储设备下仍存在模型过大导致部署不便,模型训练周期较长、检测的实时性有待提高,复杂背景下模型对于显著性目标的定位不准确、边缘模糊等问题。因此如何以更低的时间和空间复杂度,高效且准确的定位分割出显著性目标物体成为显著性检测研究中极具挑战的任务之一。针对上述问题,本文主要采用基于深度学习的方式对图像的显著性目标检测进行探索与优化。本文的研究内容主要分为以下几点:(1)首先对基于池化技术语义增强的显著性目标检测模型编码端设计较为轻量级的网络结构压缩模型,减少网络参数大小。通过实验对比分析,优化后的模型在精度略有下降的同时参数量降低了13%,模型大小减少至原来的85%,推理速度相较于原网络提升了10~15FPS,模型的训练时间仅为原来训练周期的1/2左右。(2)针对复杂背景下模型定位不准确、边缘模糊等问题,本文通过探究基于边缘引导的网络模型解码端进行优化。在模型压缩方面,提出SSSFEM和ISFCREM两种压缩补偿模块将精度损失控制在1%左右的前提下将模型大小分别减少了300MB左右,模型大小仅为原来的1/4左右,提升了模型推理速度。同时在ISFCREM模块上使用新的优化器通过参数调优,新模型的训练周期仅为原模型的近一半时间就可以平稳收敛到全局最优。在精度补偿方面,通过引入卷积注意力模块、外部注意力机制与传统和已有的深度学习方法在DUTS、DUTOMRON、MSRA10K、PASCAL-S、SOD、ECSSD、HKU-IS七个公开显著性目标检测数据集上实验对照分析,其中卷积注意力模块在S-Measure检测中最大有2~3%的提升。(3)从应用的角度出发实现了基于显著性目标检测的在线检测系统。用户登录该系统后可以自定义训练模型,通过日志实时显示当前训练状态。同时用户可以将自定义的图像上传至系统,系统后端通过已经训练好的模型进行实时显著性检测,系统前端展示相应推理的可视化结果并且基于显著性目标检测实现了证件照背景一键切换与复杂场景下显著性目标场景切换的功能,用户可以根据历史记录下载对应的检测记录信息。
其他文献
基于车联网行业以及通信技术的发展,目前涌现了大批人工智能相关的智能应用,如自动驾驶、语音交互、路况预测等,大大提高了人们的驾驶体验,优化了道路的驾驶环境,但这类应用的特点是对计算资源和存储资源要求很高。传统的云计算(Cloud Computing)范式能够通过网络为移动设备提供算力的扩展,但由于车辆与云计算中心通常距离较远,通信延迟较高,计算任务的延迟要求往往无法得到满足。因此出现了车辆边缘计算(
目前,事业单位思想政治工作虽然取得了一定成效,但随着时代的进步与社会的发展,事业单位需要加快思想政治工作改革与创新步伐,改善内部结构,注重思想政治工作的改革与创新,使事业单位发展符合时代需求。在新时代,事业单位需要进一步增强对思想政治工作的引导,分析不同时期存在的问题,并提出相应的解决措施,助推事业单位高质量发展。
近年来,随着深度学习技术的高速发展,人类在自然语言处理方向的研究不断深入,对于语料库的需求也日益增多。语料库作为一个存放语言材料的数据仓库,是自然语言处理以及计算机语言学的研究基础,为分词任务、实体识别任务以及关系抽取任务等提供了有效的底层数据支持,推动人们对语言的理解和应用。而在内蒙古,该地区有着丰富的历史文化,但许多历史人物、事迹以及民族发展等都是以书籍文献等纸质文本方式进行记载存储,不利于知
场景文本识别(Scene Text Recognition,STR)是指识别自然场景图像中的文本。印刷文本大多经过排版,其背景单一、清晰度高。相较于印刷文本,识别各类场景中的文字,其难度更具挑战。目前,场景文本识别研究存在以下问题:第一,使用较为广泛的编-解码器结构的识别模型,大多以LSTM(Long Short-Term Memory)作为解码器。由于LSTM是多个重复模块串联组成的链式结构,只
“强基计划”是回应国家战略需要、在反思自主招生基础上探索拔尖创新人才选拔与培养相衔接的人才培养模式。由于“强基计划”自身的制度障碍、家长和考生认识不到位等原因,高校“强基计划”战略“遇冷”。在分析“遇冷”基础上,提出一系列改进举措,包括:高校要制定多元化录取方案,改革考试评价体系;强化衔接教育,贯通人才培养模式;健全保障机制,助力政策落实;完善监督举报机制,提升政策执行效能等实施路径。
在新医改背景下,如何在公立医院自身发展中构建夯实基础的地基,如何进一步提升公立医院人力资源管理机制的长久性,可持续性发展问题,成为公立医院亟须解决的重要课题。人力资源管理的长久性、稳定性、可持续性,在一定程度上影响着公立医院内部结构整体布局及外部影响力,影响着公立医院今后的发展方向及医疗质量服务水平。激励机制作为公立医院重要的“资产”组成部分,在人力资源管理中如何将激励机制有效应用于公立医院发展实
在自然语言文本中存在着大量的因果关系,因果关系挖掘任务在信息抽取、关系推理以及事件预测等研究领域都起着至关重要的作用。随着深度学习的崛起,因果关系研究已从传统的模板匹配和机器学习方法,发展为训练神经网络实现抽取,不仅可以识别因果语句,还可以通过序列标注方法获取文本中的因果关系对,并且深度学习技术训练的神经网络模型可以显著地提升抽取准确率。同时,通过序列标注得到的因果关系可以更好地用于构建因果关系网
水平基因转移是基因在亲缘关系较远或无亲缘关系的物种之间的横向移动,是物种进化中经常出现的一种网状进化现象。系统发生网络是一种网状结构,可用于表示物种间的网状进化关系。构建系统发生网络是识别水平基因转移事件的重要方法之一。本文重点研究了基于系统发生网络的水平基因转移事件的识别方法,具体工作如下:(1)深入研究了系统发生网络构建过程中使用的最大简约准则。现有的最大简约准则(Maximum Parsim
在线公交车乘客数信息不仅可以提升城市公共交通的服务质量,还可以优化乘客的出行计划。WiFi嗅探以非侵入的方式收集移动设备发出的探测请求帧,所以可以被用来监测公交车乘客数。与其它基于非WiFi嗅探的方法相比,基于WiFi嗅探的方法具有干扰小、覆盖范围大、成本低和计算简单等优点。近几年以来,研究人员提出了一些离线场景下的基于WiFi嗅探的估计方法对公交车乘客数和源点终点(Origin-Destinat
面部表情包含着丰富的情感信息,是人与计算机交互的重要途径,具有十分广阔的应用前景。人脸表情识别(facial expression recognition,FER)随着深度学习在人工智能领域的快速发展,也获得了显著的进步。目前人脸表情识别的研究主要集中在数据集的收集整理,网络模型和损失函数的改进三个方面。大多数人脸表情识别研究都面临表情识别数据集中广泛存在的标注不一致问题。原因是不同的标注者的主观