结合视觉感知特性与深度学习的盲图像质量评价方法研究

来源 :南京信息工程大学 | 被引量 : 0次 | 上传用户:yxs
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着电子信息技术的发展,图像作为一种信息的载体,在人们的日常生产生活中被广泛地用来传输信息。但是,在图像的传输、压缩、存储或者相机的拍摄过程中都有可能产生信息丢失,从而导致图像整体质量的下降。因此,如何建立一个高效、准确的图像质量评价方法成为了计算机视觉领域的重要问题。随着深度学习的发展,越来越多的方法将卷积神经网络应用到图像质量评价领域中,并取得了良好的预测准确性。然而,失真图像中包含丰富的图像内容信息和图像失真信息,训练一个单一的深度学习模型往往很难全面地提取可以准确反映图像质量的特征,并且在泛化性能上往往难以取得令人满意的效果。为解决此问题,本文从模拟人类视觉系统、提取质量感知特征为主要切入点对图像质量评价问题进行分析与建模,从而提升整体算法的预测准确性。本文主要有如下两个研究工作:(1)现有的图像质量评价方法旨在通过训练一个深度学习模型来提取图像中的失真特征以达到预测质量分数的目的。然而,图像中可能存在不同的失真类型,训练单一模型通常很难处理图像的失真变化的问题。例如:在合成失真数据集上训练的模型往往很难在真实失真数据集上取得令人满意的泛化性能。为了解决此问题,本文提出了一种基于循环生成式对抗网络的图像质量评价方法(Cycle-consistent adversarial networks for Image Quality Assessment,Cycle IQA)来对图像的质量退化过程进行建模。本文提出的方法由一个基于生成式对抗网络的质量感知网络和一个质量回归网络组成。基于生成式对抗网络的质量感知网络由损失复原模块和无损复原模块组成,其旨在模拟失真信息引入图像的正向过程和反向过程。受到人脑的内部生成机制的启发,本文从无损复原模块的生成器网络中提取分层复原特征,从而对学习到的图像恢复特征和质量分数之间的关系进行建模。实验表明本文提出的方法具有令人满意的预测准确性,尤其在交叉数据集测试上取得了良好的泛化性能。(2)由于目前的质量评价方法难以有效地预测合成失真图像和真实失真图像的质量分数,本文通过模拟人类视觉系统提出了一种基于内容感知和失真推理的图像质量评价方法(Content Perception and Distortion Inference Network for image quality assessment,CPDINet)来同时提取图像中的内容信息和失真信息。该方法将图像质量评价任务分为内容感知过程和失真推理过程。对于内容感知过程,由于人类视觉系统在感知图像质量之前会试图理解图像的内容信息,因此本文设计了一个内容特征提取器来提取图像中的内容信息以应对不同图像的内容变化问题。对于失真推理过程,为了让网络学习更加丰富的失真信息,本文还提出了一个失真特征提取器来提取图像中的失真特征。由于提取的内容特征和失真特征具有不同的特性,本文通过提出的自适应融合块对内容特征和失真特征进行自适应地融合。实验表明,本文提出的方法对合成失真图像和真实失真图像都可以取得优秀的预测准确性。
其他文献
分类任务是机器学习中一项重要的分支,分类算法利用样本中的特征信息将实例进行类别的划分。但是,由于特征数量的急剧增长,“维度灾难”问题严重影响了分类算法的性能。特征选择技术通过对数据集中不相关或冗余的特征进行剔除,能够很好地解决“维度灾难”问题。特征选择可以被视为组合优化问题,即从特征全集中挑选出合适的特征组合形成特征子集。遗传算法作为进化算法中最具代表性的经典算法之一,全局搜索能力突出,特别是针对
学位
在过去的20年中,核方法已成功用于解决许多机器学习和模式识别问题。众所周知,核方法的性能高度依赖于核参数的选择。传统的模型选择在交叉验证的框架下基于格子、随机或者手动搜索实现。然而这些方法都是在离散的参数空间中选择有限个候选核参数,然后多次训练模型,这需要很高的计算成本。尽管研究者们已经提出了非线性解路径算法用于在连续的参数空间中选取核参数,但这些方法仍不能保证搜索到整个参数空间内最优的核参数值。
学位
深度伪造是利用深度学习强大的拟合能力来生成逼真人脸的一种技术。目前已经有着大量使用此类算法生成的恶意视频在网络中传播,对个人隐私和社会稳定造成严重威胁。也因此,深度伪造检测成为当前亟待解决的问题。目前伪造人脸检测的相关研究已经能够在各个数据集上表现出足够高的精度,但在泛化性仍有不足。不同的伪造算法所留下的痕迹各不相同,未知数据分布更是增加了检测难度。现有很多方法都是针对于某种特定伪造算法所产生的特
学位
作为数字图像处理与计算机视觉中的关键任务,图像分割是对图像中像素点进行分类,为后续图像信息精细化理解及分析提供支撑。图像分割现已广泛应用于工业、遥感、医学、生物识别等领域,一直是学者们关注的热点。目前,基于有限混合模型的方法凭借其在图像分割任务中展现出的良好性能,成为该领域的流行方法之一。然而,模型参数的大量引入往往导致模型难以选择,同时增加了计算复杂度。此外,当前该方法主要依赖独立像素,并未充分
学位
近年来,随着深度学习技术和操作简单的图像编辑工具的快速发展,人们可以容易的对人脸图像进行篡改甚至生成新的人脸图像。这些假脸图像十分逼真,人们很难发现破绽。一旦这些虚假的人脸图像在互联网上被广泛的传播、复制、伪造,那么将对日常隐私以及社会安全产生巨大的威胁。目前,研究者已提出很多深度伪造人脸检测算法。但是,这些算法在应用到现实场景中会面临如下两个问题:(1)图像传播过程中可能会经过压缩、模糊等后处理
学位
现代互联网通信技术的发展和多媒体技术的普及,为图像、视频、音频等多媒体信息的共享与存储带来了便利。但同时带来了多媒体信息版权盗用的问题,造成了严重的信息安全隐患。数字水印技术以不可见的方式将版权信息嵌入多媒体信息中,能够有效实现版权保护和侵权行为追溯。本文针对使用较为广泛的静态图像载体,优化其在鲁棒性、不可感知性方面的综合性能,主要工作及创新点如下:1.针对现有方法难以抵御几何去同步攻击的问题,提
学位
目标检测是计算机视觉领域中最基础且最具挑战性的任务之一,包含目标分类和定位。与此同时,目标检测作为图像理解和计算机视觉的基石,它为视频跟踪等任务提供了强有力的特征分类基础。最近,深度学习利用强大的分层特征提取和学习能力表现出更强的鲁棒性。尽管如此,现有方法在面对多尺寸目标检测和密集成群的小目标检测时仍无法取得较好的效果。为解决这些问题,本文旨在研究利用特征融合和重构的方法增强与丰富多阶段特征图中的
学位
隐写术是将敏感信息隐蔽地嵌入到图像等通信载体中,并进行公开传输的一种隐蔽通信技术,可以实现敏感数据“神不知鬼不觉”地秘密传输。同时,违法分子也会利用隐写术来从事非法犯罪的活动。因此,为了防止隐写技术被用来造成一些危害社会的信息安全事件,隐写分析技术受到国内外学者的广泛关注及深入研究。近年来,深度学习在图像隐写分析任务中表现出了优越的检测性能。然而,基于深度学习的图像隐写分析模型需要隐写算法对应的大
学位
视频目标分割是机器视觉中最基本的任务之一,在实际应用中发挥着重要作用。根据是否有人为的参与,可以分为无监督视频目标分割和半监督视频目标分割。本工作旨在研究半监督场景下的视频目标分割任务,即根据人为标注的视频首帧的目标掩码注释,来完成后续帧中的目标掩码预测。当前,基于时空记忆的方法由于其优异的性能,受到了广泛欢迎。其基本思想是通过构建一个外部记忆库来记忆历史帧中目标对象的信息,然后将查询帧中的像素与
学位
随着神经胶质瘤发病率逐步上升,作为关键辅助诊疗手段的医学图像处理技术受到了越来越多的关注。其中,脑部磁共振图像分割与重建算法的有机结合能极大便利诊疗决策、模拟手术、术后规划以及医疗教学等医学任务。因此,分割与重建算法的设计一直都是医学图像处理与计算机辅助诊断领域备受关注且极度活跃的研究热点。然而,在成像过程中,高斯噪声和莱斯噪声经常叠加出现,造成采集到的图像质量退化,导致分割精度受限。同时,现有的
学位