深度显著性预测网络的损失函数研究及在图像质量评价上的应用

来源 :深圳大学 | 被引量 : 0次 | 上传用户:sgrsrg
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
人类有一种对映入眼帘的场景有快速选择性观察的视觉注意机制,它能够帮助人类在短时间内获取最大的信息量。这种视觉注意机制在计算机视觉领域中被称为视觉显著性,计算机视觉领域的研究者们通过提取数字图像中的显著性特征来模仿人眼的视觉显著性。计算机视觉显著性的研究启发于生物学,由传统手工提取特征的计算模型开启显著性预测的篇章,向自适应的学习数据样本中显著性特征的深度网络模型发展。其中,基于深度网络的显著性预测模型在显著性预测上取得了较大的成功。但是,深度显著性预测网络中的损失函数设计的重要性常常被忽略。本文设计了一个深度显著性预测网络的损失函数,考虑到真实样本标签的分布类型,损失函数设计被分成基于分布项和基于位置项两部分。考虑到场景中先被注意到的事物其显著的概率值更大,真实显著图中越大的像素值也应该给予更大的权重,于是在该损失函数的分布项中加入线性权重图。同时,观察到深度显著性模型在预测结果中心容易出现过度估计,于是在损失函数中加中心惩罚。中心惩罚的目的是加大深度显著性预测网络在中心位置的错误的惩罚力度。除此之外,用于深度网络训练的数据量十分有限,因此在损失函数中加入L1正则项来防止深度网络模型过拟合。总而言之,提出的基于深度显著性预测网络的损失函数考虑到样本数据的特性、人眼视觉特性、深度显著性模型预测样本分布的特性以及防止深度网络过拟合的L1正则化4个方面,综合设计了一个鲁棒的关于深度显著性预测网络的损失函数。本文以Pytorch深度学习框架为平台,将提出的损失函数与目前最先进的深度网络的损失函数进行比较,比较实验在SALICON数据库的训练集上训练,在验证集上收敛得到模型。对比实验还包括基于连续分布项和基于位置项、加入中心位置惩罚、加入线性权重图和L1各个模块的性能分析,并在OSIE和MIT1003库上进行定量和视觉比较。本文设计的基于深度显著性预测网络的损失函数在各个指标上的平均增幅为8.45%,且在视觉上也更接近于人眼真实的显著性观察。本文还提出将显著性预测应用于超分图像质量评价。具体的,本文通过提出一个全新的超分辨率图像数据库,并针对超分辨率图像的退化问题,设计一个的客观评价指标。在客观指标的设计方面,本文提出结构相似度、纹理相似度和高频相似度三种相似度计算方式,并将相似度图通过本文提出的融合方式融合成单一分数。本文提出的方法在现有先进的图像质量评价算法的基础上平均提升13.65%。在显著性预测应用与超分辨率图像质量评价时,通过所提出的损失函数训练一个深度显著性预测模型,其预测的显著性图作为超分辨率图像质量评价算法中的各个特征的权重图。超分辨率图像质量评价算法中加入显著性前后相比,后者在数据库上的各指标平均提升2.98%。
其他文献
新兴的物联网(Internet of Things,IoT)应用,如智能制造和智能家居,对提供低成本、高精度的室内定位和导航解决方案提出了巨大的需求。惯性测量单元(Inertial Measurement Unit,IMU)通常可以在较短的时间内提供较精确的位置解算,但是由于加速度计传感器存在测量误差的累积效应,其定位和导航误差随着时间的推移而迅速增加。另一方面,超宽带(Ultra-Wide Ba
艺术语言是创作者艺术表达的具体体现,能够代表创作的水平和画家的思想,版画创作中艺术语言的产生及演变是在众多因素共同作用下的结果。随着经济、政治等均实现了快速扩张发展,艺术、科学技术水平也在不断演进。新媒体、新文化以及新技术已融入到版画艺术里,使当代版画艺术不断呈现出新的表现语言与创作方法,给版画带来了新的机遇。在以往的版画展览中,某些传统版画的艺术语言较为局限,更新速度较慢,比较缺少与当代文化、当
近年来,语音识别技术在无噪环境下取得了突破性的进展,但在带噪环境下识别性能仍然存在下降的问题。因此,鲁棒语音识别研究受广泛的关注,如鲁棒语音特征提取、语音增强和鲁棒性声学模型等。鲁棒性声学模型是提高语音识别系统抗干扰能力的关键技术。然而,鲁棒性声学模型在实际应用中仍然存在很多有待克服的技术问题,譬如对未知噪干扰的泛化能力和对复杂应用场景的建模方案。为了解决这些问题,本课题从端到端的声学模型和深度神
近年来,无人机和机器人等无人智能设备迎来了快速发展,其与接收站实时共享机载传感器数据成为工业界的迫切需求。然而,由于奈奎斯特(Nyquist)采样率的限制和通信信道是极其有限。因此,亟需一种新的技术突破经典的奈奎斯特采样理论,而压缩采样正符合这种技术。压缩采样技术将采样和压缩过程合二为一,极大的减少了采集信号的存储空间。接下来,利用深度学习的方法对压缩采样数据进行数据恢复。由于深度学习卷积网络模型
动漫产业作为我国文化产业的重要板块,是国家近年来大力扶持发展的重点产业。我国动画水平曾立足于世界巅峰,却从20世纪80年代后逐渐落寞,崛起之路困难重重。2015年随着“IP时代”的到来,动漫产业乘着IP的风呈现爆发式增长,一度成为资本市场的宠儿,拓展动漫IP价值的需求不断涌现。与此同时,在互联网浪潮的推动下,跨界融合逐渐成为全球各产业主流的发展趋势,为动漫IP带来了前所未有的发展机遇。然而,由于我
人类行为识别是计算机视觉中一个重要的主题,行为识别既包括单人执行一系列动作以完成某项任务,也包括许多人分散在一个大的空间里,共同努力完成一个共同的任务,即群体行为。群体行为识别的一个典型的应用场景是体育视频理解,体育战术自动分析等关键技术,具有重要的应用前景和商业价值。但由于背景杂乱、个体之间的关系复杂等原因,使得面向体育视频的行为识别成为一个及其重要而又非常具有挑战性的问题。本文对体育运动排球视
随着第五代移动通信(The Fifth Generation,5G)时代的到来,人们对传输速率和通信可靠性有了更高的要求,对未来无线通信生活的多样性有了更多的期待。然而在“万物互联”的时代,无线通信业务需求呈现出的巨大增长趋势导致现有的技术不足以支撑海量的通信设备,因此在发展现有通信技术的同时部署新的系统对提高通信性能有重要意义。与此同时,为缓和移动通信过程中的能量消耗与通信设备的有限电量存储之间
随着无线通信技术的快速发展,移动通信数据流量呈现出爆炸式增长趋势,这不仅给传统的通信网络体系带来了巨大的负担,也给未来绿色通信网络的设计、运行以及维持带来了严峻的挑战。同时随着未来通信网络中更多的无线移动终端设备连接到互联网中,“万物互联”的通信演进模式已成为必然。然而其也带来了一些非常严峻的挑战,比如,如何在保证绿色通信的情况下为用户提供可靠的通信服务,以及如何增强通信网络的智能化水平。为解决以
低分辨率场景下的目标分类与识别问题对社会公共安全和国防等意义重大。随着图像信息获取技术的巨大进步,人们对获取的图像信息的使用需求也越来越大,特别是在一些特定应用中,对图像中精细目标信息的需求愈加强烈。然而该类精细目标的图像分辨率相对较低,能够获取的有用信息量较少,在借助高分辨率模板图像进行目标相似性度量时,待识别低分辨率目标图像与高分辨率模板图像之间的维度空间不匹配问题,使得低分辨率场景下的目标识
图像修复作为数字图像处理中的一个重要分支,广泛应用在文物保护、刑侦、生物医疗、航空航天等领域。传统的图像修复方法存在图像块误匹配、块区域修复视觉效果较差等问题,深度学习作为一种新兴的工具,在提取特征上相比传统方法能够获得更深层、更加具有特定性的特征表示,已经在计算机视觉和图像处理领域中都取得了良好的效果。基于深度学习的生成对抗网络(GAN,Generative Adversarial Networ