【摘 要】
:
作为人类社会中最常用的信息载体,图像中往往存在大量信息。人类的视觉感知机制可以在复杂图像中快速定位出最吸引注意的内容。研究人员希望计算机可以模拟人类的视觉注意力,具备自动定位场景中显著性内容的能力,于是便提出了显著性目标检测这一任务。该任务旨在从输入图像中自动识别并获取最具吸引力的区域。作为一种基本和有效的预处理方法,它不仅可以帮助降低场景分析的复杂度,还广泛应用于图像和视频压缩、语义分割、视觉跟
论文部分内容阅读
作为人类社会中最常用的信息载体,图像中往往存在大量信息。人类的视觉感知机制可以在复杂图像中快速定位出最吸引注意的内容。研究人员希望计算机可以模拟人类的视觉注意力,具备自动定位场景中显著性内容的能力,于是便提出了显著性目标检测这一任务。该任务旨在从输入图像中自动识别并获取最具吸引力的区域。作为一种基本和有效的预处理方法,它不仅可以帮助降低场景分析的复杂度,还广泛应用于图像和视频压缩、语义分割、视觉跟踪等领域,具有较高的实用价值。随着深度卷积神经网络的发展和众多显著性目标检测数据集的出现,该领域的研究取得了重大进展。但在面对较为复杂的场景时,多数显著性方法仍然无法准确地识别出显著目标,通常表现为预测结果中存在部分置信度较低的像素级难样本。针对上述问题,本文围绕难样本挖掘和特征融合来进行显著性目标检测的研究。本文的主要工作如下:第一,复杂场景下显著性检测效果不佳是由于目前大多数方法缺少对图像中像素级难样本的关注,从而导致网络模型很难在对应位置提取出具有足够判别性的特征。针对该问题,提出了一种基于弱特征增强的渐进式显著性目标检测方法,尝试通过增强难样本对应的特征来提高检测效果。该方法提取图像中难以预测的区域(低置信度区域),并通过精心设计的弱特征增强模块针对性地增强这些区域的特征。从一个粗糙的显著图开始,根据增强后的特征逐步细化显著图,完善显著性区域,从而得到更准确的显著图。在五个基准数据集上的评估结果表明,使用该方法预测得到的显著图更加完整且准确,相比于现有的先进方法具有一定优势。第二,针对显著目标尺度变化剧烈的问题,通过将动态路由机制引入显著性目标检测任务,提出了动态尺度感知策略,其中包括特征内和特征间的动态融合方法,实现针对不同尺度的显著目标学习自适应的路由方式。其次,提出了针对难样本问题的采样优化策略。该方法在粗糙显著图的指导下,生成不同类别的概率图,通过随机采样的方式选取不同类别的像素,并引入图注意力机制来构建适当的图表示,最终实现对难样本的针对性语义信息传递和特征聚合。在上述数据集上的实验结果表明,该方法可以更好地应对尺度变化和难样本问题,在定量和定性方面都表现出优异的性能。
其他文献
由于现实决策环境日益复杂,同时人类的思维认知存在模糊性与不确定性,许多决策者更倾向于使用模糊数或语言词表达决策信息。广义序对模糊数由直觉模糊数发展而来,允许决策者赋予隶属度和非隶属度0到1之间的任意实数值,具有更广阔的模糊信息表达范围;二元语义模型由一个语言词和一个实数组成,可以表示语言术语在信息集成过程中的任意结果,从而能够有效避免决策过程中的信息损失。广义序对二元语义综合了二元语义与广义序对模
山东省经济处于由高速增长转向高质量发展的阶段,各市经济发展差异明显。全要素生产率是评判一个地区或国家经济增长的重要指标,其测算结果能够帮助我们认清山东省17市的经济发展现状,指明未来发展方向。如何去测算全要素生产率?不同测算方法得到的结果又有怎样的差别?全要素生产率又受到哪些影响因素的影响?围绕上述问题,本文采用多种测算方法对山东省17市的全要素生产率进行详细测算,并对测算结果进行对比分析,采用动
水下目标检测旨在定位和识别水下场景中的目标,在海洋探测和监测、自主水下航行器等水下应用中具有重要意义。然而在复杂的水下环境中获取的图像通常存在严重的退化,影响水下目标检测等高层次视觉任务的执行。水下图像增强算法可以改善图像退化,提高水下图像质量,但是水下缺少真值图像,基于学习的方法在合成数据上训练的模型泛化性能有限,并且图像增强与目标检测任务的优化目标不同,仅考虑算法的增强效果时,增强后的图像不一
这是一篇翻译实践报告,基于笔者对源语言文本《荧屏女同》的翻译。源语言文本是一篇由凯特·麦克尼古拉斯·史密斯撰写的博士毕业论文,属于社会学领域,主要研究近十年来女同性恋群体在电视荧屏上的发展趋势,具有一定的学术价值和现实意义。学术论文的翻译向译者提出了新的要求,不仅要求译者准确把握原文特点,完整传达作者思想,还要兼顾译文的可读性,使译文既清晰易懂,又符合学术论文的客观性和规范性特质。本报告重点研究汉
时间序列数据指的是把针对系统观测得到的数值,按照时间的先后顺序排列而成的一种序列数据。时间序列数据十分广泛的存在于人们的日常生活当中,比如电力系统的地区用电量、气象系统中的污染物排放情况、金融领域中的股指期货变化等等。针对这类时序数据进行分析和研究,通过建立预测模型来对接下来一段时间之内,数据的变化趋势、变化量进行预测。准确可靠的预测结果对于系统的未来决策和发展具有非常重要的指导意义,因此时间序列
数据聚类能够从无标签的数据中获取数据的内在联系和规律,是数据分析的重要基础。k均值聚类算法,因其简单高效而被广泛应用于数据聚类问题。但传统的k均值聚类算法,聚类结果易受初始中心点选取的影响,同时,在处理不平衡数据集及线性不可分数据集的聚类问题时,传统k均值聚类算法的表现差强人意。本文首先在全局k均值算法及多原型聚类算法的基础上,提出了一种改进全局k均值的多原型聚类算法。其次,传统聚类算法在处理高维
文字,在自然环境中随处可见,是人们之间讯息传达和交流的主要方式之一。近年来,自然场景图像中的文本检测与识别技术已成为了计算机视觉、自然语言处理、即时翻译等领域的研究热点,并受到了来自科学界、工业界等各学科领域的强烈关注。然而,由于复杂场景中多尺度、多方向、光照条件等因素影响,自然场景下的文本检测与识别任务仍然是一项极具挑战性的课题。为了进一步提高场景文本检测、识别的精准度和鲁棒性,本文主要研究自然
显著性检测是基于视觉注意力机制的图像理解任务,该建模任务从人类视觉系统理解图像的角度出发,把图像中引起人眼兴趣的像素点设定为前景目标,其余像素点定义为背景区域。显著性检测的相关研究首先在自然图像领域展开,目前随着相关研究的不断深入,研究人员发现视频的时序线索对于显著性检测有着重要意义,添加时序线索有助于仿真视觉注意力机制在动态场景下的视点转移,从而提升最终的显著性检测效果,因此基于视频的显著性检测
在计算机视觉与计算机图形学领域中,人脸图像合成一直是一个研究热点和难点。二维人脸图像合成是指根据输入信息合成一张达到预期值的高真实感人脸图像,其涉及到诸多研究问题,如人脸表情迁移、人脸属性编辑、人脸图像重建等。近年来,基于深度学习思想特别是对抗生成思想的二维人脸图像合成技术,得到了很多学者的关注,取得了长足发展,并被广泛应用在动画制作、数字娱乐、安全防控等领域。由于人脸的特殊性,即使细微的面部变化
时间序列分析已被广泛应用于金融市场预测、电力负荷预测、天气和环境状态预测等实际问题。由于预测时间序列数据的准确值比较困难,近期的研究主要集中在判断时间序列的未来趋势上。时间序列预测通常可以被看作一个分类问题,即预测时间序列的未来趋势方向,例如上升、下降和稳定。作为时间序列分析中最常用的技术指标之一,移动平均线指标可以通过简单快捷的方式对过去一段时间内时间序列的整体变化规律进行总结。虽然移动平均线在