论文部分内容阅读
摘 要:图像美学质量评价(Image Aesthetic Quality Assessment,IAQA)是使用计算机模拟人类对美的感知与理解,自动地对输入的图像从美学质量的角度做出一个客观准确的评价。图像美学质量评估研究为基于图像视觉体验的应用提供了技术支持,应用广泛,涉及图像检索、社交媒体、图像编辑和美化等多个领域,并且高美学质量的图像对观察者更有吸引力。由于应用广泛,吸引着人们进行了许多研究努力,并提出了各种方法。这些方法大致可以分为两类:(1)分类评价,分类评价是图像美学质量评价中最基础最简单的一种评价方式,它的主要特点就是将输入图像按照美学质量的程度划分为固定的几类,可以是高美学质量图像和低美学质量图像的二分类。在提取美学特征之后,利用这些美学特征我们可以使用支持向量机或者卷积神经网络等方法训练一个分类器模型,然后自动对一张图像进行分类评价。(2)回归评价,回归评价方法是对输入图像预测一个分数,分值的高低代表图像美学质量的高低。更加符合人们的主观感受。在提取美学特征之后,利用这些美学特征我们可以使用线性回归,支持向量回归机或者卷积神经网络等方法训练一个回归器模型,然后自动对一张图像进行打分。一个类别标签或者单一的分数来表示图像美学质量是不客观的,也是不精准的。为了更准确更客观的对图像进行美学质量评价,我们提出了基于评分等级分布学习的图像美学质量评价方法。我们的方法思路是来源于对图像美学数据集AVA进行了分析和探究。AVA美学数据集其中一个最大的优势就是图像的标签可以用一个离散概率分布(离散概率分布称为:评分等级分布)表示,随机变量的取值范围是1-10表示10个评分等级,评分等级分布的期望表示图像美学质量分数。
关键词:图像美学评价;评分等级学习;深度卷积神经网络
图像美学质量评价
一、研究背景及意义
随着互联网的普及、高速通信环境的逐步完成、科学技术的发展和自主创新的提升以及成像设备在现代生活中已经无处不在,使用图像记录和分享日常生活已成为许多用户的一种流行习惯,人们对美的要求也越来越高。在此背景下,图像美学质量评价(image aesthetic quality assessment, IAQA)的发展受到了人们的高度关注。其优势在于自动计算美观度,节省人力物力,关系到人们生活的方方面面,如在智能商品海报的设计方面,高质量的图片更有吸引力,能够快速抓住消费者的眼球,提高购买欲望;在智能美化图像方面,比如各类修图软件可以对图片进行智能评分,人们可以根据评分做出相应的改进;在手机应用方面,智能相册自动筛选美学质量高的照片,使用户获得更好的体验。
二、基于评分等级分布学习的图像美学评价方法
评分等级分布结构模型如下图所示:
评分分布等级结构模型是建立在图像分类结构的基础上的。基础网络是用于图像分类的去掉最后一层的深度卷积神经网络,比如ResNet、VGG、Inception、Inception-ResNet、MobileNet。
评分等级分布模型框架包含三个阶段:
第一部分图像预处理阶段,数据预处理是任何自动学习过程的重要组成部分。预处理主要涉及数据标准化处理,它通过缩放输入数据来稳定训练过程,为了控制特征值的分布范围并避免训练过程振荡或缓慢移动。标准化不会改变图像本身的信息存储,但是通过打印出来的像素值可以发现,只是把像素取值范围从0-255转化为0-1之间,这样的处理方法可以加快训练网络的收敛性。图像预处理还包括一些数据增强方法,如镜像翻转、缩放、尺度变换、随机裁剪和填充等。深度卷积神经网络一般都需要大量的训练数据才能获得比较理想的结果。在数据量有限的情况下,可以通过数据增强来增加训练样本的多样性,提高模型鲁棒性,避免过拟合。在训练中,将输入的图像缩放为256x256,然后随机裁剪出大小为224x224的图像。这样做的目的是可以减少潜在的过拟合问题。
第二部分特征提取阶段,评分分布模型中的特征提取阶段是基于去掉最后一层的图像分类网络,连接一个具有10个神经元的全连接层,然后通过Softmax层激活。有学者认为有序类可以用实数表示,因此可以通过回歸框架来学习。然后表明,对于有序类,分类框架可以胜过回归模型。
第三部分决策阶段,在全连接层之后,连接Softmax回归层,使用Softmax回归层输出评分等级的概率分布。Softmax回归层将全连接层输出的10维向量映射到取值范围都在区间[0,1]之间且和为1的向量[,…,,…,],则[,…,,…,]就是评分等级分布模型预测出来的评分概率分布向量,其中代表评分为i等级的概率值。最后,使用EMD[1]损失函数计算预测的评分分布与图像的真实标签之间的误差,从而在反向求出梯度,更新网络的权重,从而达到训练模型的目的。
参考文献:
[1]Talebi H, Milanfar P. Nima: Neural image assessment. IEEE Transactions on Image Processing,2018, 27(8):3998–4011
关键词:图像美学评价;评分等级学习;深度卷积神经网络
图像美学质量评价
一、研究背景及意义
随着互联网的普及、高速通信环境的逐步完成、科学技术的发展和自主创新的提升以及成像设备在现代生活中已经无处不在,使用图像记录和分享日常生活已成为许多用户的一种流行习惯,人们对美的要求也越来越高。在此背景下,图像美学质量评价(image aesthetic quality assessment, IAQA)的发展受到了人们的高度关注。其优势在于自动计算美观度,节省人力物力,关系到人们生活的方方面面,如在智能商品海报的设计方面,高质量的图片更有吸引力,能够快速抓住消费者的眼球,提高购买欲望;在智能美化图像方面,比如各类修图软件可以对图片进行智能评分,人们可以根据评分做出相应的改进;在手机应用方面,智能相册自动筛选美学质量高的照片,使用户获得更好的体验。
二、基于评分等级分布学习的图像美学评价方法
评分等级分布结构模型如下图所示:
评分分布等级结构模型是建立在图像分类结构的基础上的。基础网络是用于图像分类的去掉最后一层的深度卷积神经网络,比如ResNet、VGG、Inception、Inception-ResNet、MobileNet。
评分等级分布模型框架包含三个阶段:
第一部分图像预处理阶段,数据预处理是任何自动学习过程的重要组成部分。预处理主要涉及数据标准化处理,它通过缩放输入数据来稳定训练过程,为了控制特征值的分布范围并避免训练过程振荡或缓慢移动。标准化不会改变图像本身的信息存储,但是通过打印出来的像素值可以发现,只是把像素取值范围从0-255转化为0-1之间,这样的处理方法可以加快训练网络的收敛性。图像预处理还包括一些数据增强方法,如镜像翻转、缩放、尺度变换、随机裁剪和填充等。深度卷积神经网络一般都需要大量的训练数据才能获得比较理想的结果。在数据量有限的情况下,可以通过数据增强来增加训练样本的多样性,提高模型鲁棒性,避免过拟合。在训练中,将输入的图像缩放为256x256,然后随机裁剪出大小为224x224的图像。这样做的目的是可以减少潜在的过拟合问题。
第二部分特征提取阶段,评分分布模型中的特征提取阶段是基于去掉最后一层的图像分类网络,连接一个具有10个神经元的全连接层,然后通过Softmax层激活。有学者认为有序类可以用实数表示,因此可以通过回歸框架来学习。然后表明,对于有序类,分类框架可以胜过回归模型。
第三部分决策阶段,在全连接层之后,连接Softmax回归层,使用Softmax回归层输出评分等级的概率分布。Softmax回归层将全连接层输出的10维向量映射到取值范围都在区间[0,1]之间且和为1的向量[,…,,…,],则[,…,,…,]就是评分等级分布模型预测出来的评分概率分布向量,其中代表评分为i等级的概率值。最后,使用EMD[1]损失函数计算预测的评分分布与图像的真实标签之间的误差,从而在反向求出梯度,更新网络的权重,从而达到训练模型的目的。
参考文献:
[1]Talebi H, Milanfar P. Nima: Neural image assessment. IEEE Transactions on Image Processing,2018, 27(8):3998–4011