【摘 要】
:
显著性检测是基于视觉注意力机制的图像理解任务,该建模任务从人类视觉系统理解图像的角度出发,把图像中引起人眼兴趣的像素点设定为前景目标,其余像素点定义为背景区域。显著性检测的相关研究首先在自然图像领域展开,目前随着相关研究的不断深入,研究人员发现视频的时序线索对于显著性检测有着重要意义,添加时序线索有助于仿真视觉注意力机制在动态场景下的视点转移,从而提升最终的显著性检测效果,因此基于视频的显著性检测
论文部分内容阅读
显著性检测是基于视觉注意力机制的图像理解任务,该建模任务从人类视觉系统理解图像的角度出发,把图像中引起人眼兴趣的像素点设定为前景目标,其余像素点定义为背景区域。显著性检测的相关研究首先在自然图像领域展开,目前随着相关研究的不断深入,研究人员发现视频的时序线索对于显著性检测有着重要意义,添加时序线索有助于仿真视觉注意力机制在动态场景下的视点转移,从而提升最终的显著性检测效果,因此基于视频的显著性检测工作开始引起越来越多专家学者的关注。尽管基于图像和视频的显著性检测工作已经取得较为理想的效果,但当前显著性检测算法在复杂图像的背景抑制、时序信息的挖掘利用等方面仍存在一定欠缺。本文针对当前显著性检测模型中的不足,开展了相关研究工作。本文的研究工作以及主要创新点如下:(1)在复杂图像的显著性检测工作中,背景中往往存在可区分度极低的干扰物体,比如低级线索明显但语义信息不足的像素块信息、极具欺骗性语义信息的物体倒影等,造成背景和显著性目标物体之间的区分存在难度。以上述挑战为出发点,本文提出了一种基于中心先验与UNet网络相结合的图像显著性检测框架,通过中心先验知识与高级语义信息的结合来抑制上述背景噪声问题。(2)视频显著性目标检测旨在模拟人眼注意力机制识别出动态场景下令人感兴趣的目标或区域,目前,现有视频显著性检测方法一般从宏观角度出发,运用光流网络或者长短期记忆卷积模型来提取时序特征信息。但这些方法往往忽略了视频帧帧间信息细节的提取与整合,导致连续帧的差分信息未被充分利用,以致出现时空一致性不足、边缘连续性差等问题。基于此,本文提出了一种基于时序差分和像素梯度的视频显著性检测方法,通过设计协同注意力模块整合时序线索,突出图像中的位置信息,并结合梯度信息针对地改善不同位置上的特征融合问题,有效地挖掘了时序差分信息用于显著性检测,提升了视频显著性检测的性能。(3)在视频显著性检测中,移动的显著性物体往往能吸引到更多注意,因此光流网络被广泛应用到视频显著性目标检测工作中,但光流信息在增加图像间运动线索的同时,光流图像边缘相对粗糙的缺陷也为视频中显著性物体的边缘界定带来了困难。针对视频显著性检测网络在加入光流信息后输出的检测结果边缘区域不够清晰的缺陷,提出了一种基于光流与边缘加权平衡损失函数的解耦合视频显著性检测框架,称为Flow-Edge-Net(FENet)。该框架主体由光流分支网络和边缘分支网络构成,通过光流分支网络模拟人眼对运动信息的关注机制,利用边缘分支网络结合时序信息改善边缘细节,FENet框架中的两个分支分别针对显著性检测中关键的目标主体定位问题和边缘细节描述问题,并根据两分支特性设计动态加权融合模块对来自两个分支的特征进行有效融合,在保留基于光流的视频显著性检测网络在目标主体定位上优势的同时增强了显著性目标的边缘细节,提升了视频显著性检测的精度。
其他文献
非流利指的是导致语流中断却并未增加命题内容的言语现象。在日常生活中,非流利现象非常常见。非流利与流利事实上是概念相似的两个术语,中国的学者在研究口译流利现象时倾向于使用“流利”,而外国学者则多用“非流利”。作为口译研究中的一个热门话题,国外的非流利研究体系和架构都比较健全,在认知、语言、文化等各种角度下都对非流利现象展开了研究。相较之下,国内学者在这方面的研究并不深入,尤其是在不同语言方向的对比研
在翻译不对等情况下,创新性是译者提出解决方案的关键。在词汇层面,译者通过创造新词或新用法,从而有机会丰富目标语言的词汇和表达方式。已有研究基于语料库语言学方法,观察了翻译语言中的词汇创造性特征(Kenny 2014;Vintar 2016),发现了一些创新词汇,并辅以验证翻译共性或译者创新性。本文进一步将新词的时间因素考虑在内,探讨创新词汇及其历时变化。研究主要讨论了两类创新词汇:新词和旧词新用词
在多属性决策问题中,传统的二支决策方法不仅对信息的完整性要求较高,而且只能给出接受或者拒绝两个决策结果。在二支决策的基础上,三支决策允许决策者做出第三种决策,即不承诺决策,在信息不完备的情境下可以有效降低决策损失。随着决策环境的日益复杂,精确属性评价值愈加难以获取,模糊性成为多属性决策问题中的常见现象。Q阶序对模糊语言集结合语言术语集和Q阶序对模糊集在描述模糊信息方面的优势,能够给决策者更加自由的
由于现实决策环境日益复杂,同时人类的思维认知存在模糊性与不确定性,许多决策者更倾向于使用模糊数或语言词表达决策信息。广义序对模糊数由直觉模糊数发展而来,允许决策者赋予隶属度和非隶属度0到1之间的任意实数值,具有更广阔的模糊信息表达范围;二元语义模型由一个语言词和一个实数组成,可以表示语言术语在信息集成过程中的任意结果,从而能够有效避免决策过程中的信息损失。广义序对二元语义综合了二元语义与广义序对模
山东省经济处于由高速增长转向高质量发展的阶段,各市经济发展差异明显。全要素生产率是评判一个地区或国家经济增长的重要指标,其测算结果能够帮助我们认清山东省17市的经济发展现状,指明未来发展方向。如何去测算全要素生产率?不同测算方法得到的结果又有怎样的差别?全要素生产率又受到哪些影响因素的影响?围绕上述问题,本文采用多种测算方法对山东省17市的全要素生产率进行详细测算,并对测算结果进行对比分析,采用动
水下目标检测旨在定位和识别水下场景中的目标,在海洋探测和监测、自主水下航行器等水下应用中具有重要意义。然而在复杂的水下环境中获取的图像通常存在严重的退化,影响水下目标检测等高层次视觉任务的执行。水下图像增强算法可以改善图像退化,提高水下图像质量,但是水下缺少真值图像,基于学习的方法在合成数据上训练的模型泛化性能有限,并且图像增强与目标检测任务的优化目标不同,仅考虑算法的增强效果时,增强后的图像不一
这是一篇翻译实践报告,基于笔者对源语言文本《荧屏女同》的翻译。源语言文本是一篇由凯特·麦克尼古拉斯·史密斯撰写的博士毕业论文,属于社会学领域,主要研究近十年来女同性恋群体在电视荧屏上的发展趋势,具有一定的学术价值和现实意义。学术论文的翻译向译者提出了新的要求,不仅要求译者准确把握原文特点,完整传达作者思想,还要兼顾译文的可读性,使译文既清晰易懂,又符合学术论文的客观性和规范性特质。本报告重点研究汉
时间序列数据指的是把针对系统观测得到的数值,按照时间的先后顺序排列而成的一种序列数据。时间序列数据十分广泛的存在于人们的日常生活当中,比如电力系统的地区用电量、气象系统中的污染物排放情况、金融领域中的股指期货变化等等。针对这类时序数据进行分析和研究,通过建立预测模型来对接下来一段时间之内,数据的变化趋势、变化量进行预测。准确可靠的预测结果对于系统的未来决策和发展具有非常重要的指导意义,因此时间序列
数据聚类能够从无标签的数据中获取数据的内在联系和规律,是数据分析的重要基础。k均值聚类算法,因其简单高效而被广泛应用于数据聚类问题。但传统的k均值聚类算法,聚类结果易受初始中心点选取的影响,同时,在处理不平衡数据集及线性不可分数据集的聚类问题时,传统k均值聚类算法的表现差强人意。本文首先在全局k均值算法及多原型聚类算法的基础上,提出了一种改进全局k均值的多原型聚类算法。其次,传统聚类算法在处理高维
文字,在自然环境中随处可见,是人们之间讯息传达和交流的主要方式之一。近年来,自然场景图像中的文本检测与识别技术已成为了计算机视觉、自然语言处理、即时翻译等领域的研究热点,并受到了来自科学界、工业界等各学科领域的强烈关注。然而,由于复杂场景中多尺度、多方向、光照条件等因素影响,自然场景下的文本检测与识别任务仍然是一项极具挑战性的课题。为了进一步提高场景文本检测、识别的精准度和鲁棒性,本文主要研究自然