论文部分内容阅读
摘要:伴随着科技和信息技术的发展,人们通过电脑,手机等设备获取的图像信息逐渐的增多,由此而产生的图片数据也日益变多。如何从这些海量的图像中找到我们需要的那些信息,是一个很重要的课题。通过运用计算机视觉技术和深度学习技术,我们可以对显著性的物体进行检测,从而快速地获得需要的信息。目前常见的显著性物体检测方法有基于分层,像素,区域和深度学习等几种,他们各有优劣,本文将 对这些方法进行总结和介绍。同时还将介绍常用的数据集和评估方式。
关键词:计算机视觉;深度学习;显著物体检测;数据集:检测方法
1引言
图像信息,是我们获得外界信息的一个重要的途径。现代信息技术的发展,产生了大量的图像数据。这使得我们面临这一个重大的问题,那就是如何从这海量的图像数据之中获得我们所需要的数据。如果我们选择人工的方式去处理,那么这将是一个非常耗时并且无聊的工作。这时,我们可以选择使用计算机视觉来智能地分析和处理这些图像,从而得到与人工处理相近甚至相同的结果。而所谓计算机视觉,指的是我们通过设计相关的一些算法,在计算机上模拟人眼的视觉系统机理,从而使得计算机能够像人类一样去观察理解事物。
人眼的视觉之所以能够很快地找出一幅图片中的重要信息,是因为人眼视觉有着注意机制,很多研究者对如何利用计算机来模拟这一机制,展开了大量的研究。这其中的一个关键问题,就是显著性检测。在信息化的今天,图像的信息容量在不断的扩大,在含有重要信息的同时,夹杂着很多无用的信息,很大地影响了信息获取的效率。视觉显著性,通常利用多种图像特征来表征,例如图像的位置特征,纹理特征,顏色特征等等。显著性目标的这些特征,相较于其他的场景更加突出,因此,该目标会从观察者的视觉中脱颖而出。显著性物体检测,可以很好地在去除这些冗余信息的同时,标记出每个图像中的重要信息。
通过设计算法,显著性检测技术能够使得计算机从给出的图像中,区分出较强的特征来表征图像中区域的属性,并且采用深度学习算法来给每个像素或区域计算权值,来衡量其重要性。下文我们将对不同的算法和应用,进行介绍。
2显著性检测
显著性物体检测的研究,在很早以前就已经有学者进行了。学者们提出了诸多的算法,虽然这些算法各有优劣,但都对这项研究做出了贡献。对于这些算法,Borji等人对它们进行了综合和总结,大致可以分为三大类:基于区域的显著性检测方法,分层的显著性检测方法,基于像素的显著性检测方法。
2.1基于区域的显著性检测方法
基于区域的显著性检测的方法首先将图像分割成了大量的区域,之后以每个区域为单位,去进行特征的提取,并且计算显著值。Cheng等人认为,可靠的视觉显著性的估计,是在没有先验知识的情况下也能够对目标进行处理。因此,他们提出了一种基于区域对比度的显著性检测的算法,该算法同时考虑全局对比性和空间相干性,并取得了较高的精度。Kim等人为每个区域进行提取高维颜色特征,并且采用高维颜色空间变换去计算显著性图,因为在高维颜色空间中,显著性目标和背景很容易进行区分。
这类方法能够提取到很多复杂且区分力强的特征。但是,他们的效率及效果在很大的程度上依赖着分割的区域的个数,和分割区域的方法,对于不同的图像,显著性目标的个数和大小会存在着很大的差异。若将其分割成固定的数量的区域时,则很难做得到去对所有的图像进行准确的显著性检测。
2.2基于分层的显著性检测方法
分层的显著性检测方法,首先将图像分层地表示为包含着不同区域个数的图像分割结果,之后再基于这些分层的区域计算显著性图。Kim等人利用CNN(卷积神经网络Convolutional Neural Networks,CNN)模型为每一个区域学习一个显著性目标的形状,之后由此得到粗糙显著性图,为了在学习的过程之中能保留更多的上下文信息,利用大小不一的区域去进行学习,之后将图像进行多水平的分割,最后基于分割的结果,进一步细化粗糙显著性图,得到最终的结果。Li等人将图像在不同的水平下进行分解,从而得到多个分割结果,之后对每个图像分割结果中的区域构建三个不同的图像块,再用一个CNN模型对其进行特征提取,并且用一个神经网络进行显著性的与预测,最后将不同水平下检测的显著性图,进行线性加权融合,得到最终的检测结果。
通过上述例子,我们能够发现,这类方法利用了所有水平的信息,因此能够得到更好的显著性图,但是计算的效率较低。
2.3基于像素的显著性检测方法
基于像素的显著性检测方法,以图像中的像素为单位提取局部或者全局的特征,并用于显著性检测。Rosin等人先对图像进行简单的边缘检测,阈值分解,距离变换,二值化,来完成显著性检测,该方法简单有效,并且是非参数的。Zhang等人认为图像边界处的像素基本为背景,并且利用最小障碍距离变换,来计算像素之间的距离并估计显著性值,最后结合基于光栅扫描的方法来对算法进行加速,极大提高了计算效率。
因为这类方法以像素为单位进行显著性检测,通常会突出具有强对比度边缘的显著性值,而不是突出整个显著目标的,或将得到显著性值对比度的检测结果,可能得到显著性边缘保持不好的显著性图。
2.4基于深度学习的显著性检测方法
基于深学习的显著性检测方法,可以分为基于区域建议的深度学习目标检测和基于回归的深度学习目标检测两个类别。但从2015年开始,CNN开始被引入进行显著性检测,与基于对比线索的大多数经典方法不同,基于CNN的方法消除了对手工特征的需求减轻了对中心偏见知识的依赖,因此被许多科研人员所采用。He S等人提出了一种新的超像素卷积神经网络方法,称为SuperCNN,可以有效地学习显著性的内部表示。Hou Q等人提出了一种新的显著性检测方法,在HED(Holistically-Nested EdgeDetection)的基础上,增加了一种高层信息指导低层信息的Skip Layer结构,从而构建了一种简单,有效,快速的端对端的显著性物体检测网络结构。 虽然目前有很多的基于深度学习的研究方法,但目前的研究基本都是基于R-CNN系列顯著性目标检测框架和YOLO显著性目标检测框架这两个基本框架。目前研究人员基于这些框架从其他方面入手提出一系列提高目标检测性能的方法。如:难样本挖掘、多层特征融合、使用上下文信息、更深网络学习的特征等。
3.数据集及评价准则
3.1数据集
早期的显著性检测研究是针对眼动图进行的。但是,眼动图是一些离散的人眼注视的空间点,不能表示出整个显著的区域,因此出现了窗口框标注的显著性检测数据集。早期的带有包围窗的来突出物体图像的数据集,有MSRA-A和MSRA-B等。由于这类的数据集过于粗糙,之后出现了一类使用像素方式的二进制掩码来注释显著对象的数据集,例如ASD和DUT-OMRO。
3.2评价准则
对于显著图的素质,我们有着对应的评价准则,下面将对这些准则进行介绍。用S表示归一化为[0,255]的预测显著图,G是显著对象的地面正式二进制掩模。
(1)精确召回(PR)。首先将显著图S转化为二进制掩码M,然后通过将M与地面真值G进行比较来计算Precission和Recall:
(2)F值:通常Precission和Recall都不能完全评估显著图的质量,为此提出F值作为Precission和Recall的非负权重的集权跳河平均:
(3)ROC(Receiver Operating Characteristic)曲线:是以假正率(FP_rate)和假负率(TP_rate)为轴的曲线
(4)ROC曲线下面积(AUC):AUC越大性能越好
(5)平均绝对误差(MAE):进行更全面的比较。
4.总结
本文主要介绍了计算机视觉,显著性检测,深度学习,以及数据集合和评价准则。在信息量剧增的当代,计算机视觉等技术,能够很好地帮助我们去处理数量巨大的图像信息,从而提高我们处理信息的效率,获取更多的有效信息。
目前有非常多的算法去实现显著性检测,这些技术各有优劣,我们在进行实验的同时,也在学习着其他优秀的算法,探索着更为高效的实现方法。我们之所以进行着这些努力,是为了能够将这项技术更好地运用到实际的生活之中。生活中用到的人脸检测,图片分类,照片美化等等,都有着显著性检测技术的应用。而更高效,准确的算法能够使得这些应用有着更高的效率,为我们的生活带来更多的便捷。
参考文献
[1]Qin S,Manduchi R.A fast and robust text spotter[C]//IEEE Winter Conference on Applications of Computer Vision. 2016:1-8
[2]Li G,Yu Y.Visional saliency based on multiscale deep features [C]IEEE Conference on Computer Vision and Pattern Recognition . 2015:5455-5463
[3]Kim J,Han D,Tai Y W,et al.Salient region detection via high-dimensional color transform[C]//IEEE Conference on Computer Vision and Pattern Recognition.2014:883-890
[4]Cheng M M,Mitra N J,Huang X,et al. Global contrast based salient region detection [J].IEEE Transactions on Pattern Analysis and Machine Intelligence,2015,37(3):569-582.
[5]Borji A,Cheng M M,Jiang H,et al.Salient object detection:A survey[J].arXivpreprint arXiv:1411.5878,2014.
关键词:计算机视觉;深度学习;显著物体检测;数据集:检测方法
1引言
图像信息,是我们获得外界信息的一个重要的途径。现代信息技术的发展,产生了大量的图像数据。这使得我们面临这一个重大的问题,那就是如何从这海量的图像数据之中获得我们所需要的数据。如果我们选择人工的方式去处理,那么这将是一个非常耗时并且无聊的工作。这时,我们可以选择使用计算机视觉来智能地分析和处理这些图像,从而得到与人工处理相近甚至相同的结果。而所谓计算机视觉,指的是我们通过设计相关的一些算法,在计算机上模拟人眼的视觉系统机理,从而使得计算机能够像人类一样去观察理解事物。
人眼的视觉之所以能够很快地找出一幅图片中的重要信息,是因为人眼视觉有着注意机制,很多研究者对如何利用计算机来模拟这一机制,展开了大量的研究。这其中的一个关键问题,就是显著性检测。在信息化的今天,图像的信息容量在不断的扩大,在含有重要信息的同时,夹杂着很多无用的信息,很大地影响了信息获取的效率。视觉显著性,通常利用多种图像特征来表征,例如图像的位置特征,纹理特征,顏色特征等等。显著性目标的这些特征,相较于其他的场景更加突出,因此,该目标会从观察者的视觉中脱颖而出。显著性物体检测,可以很好地在去除这些冗余信息的同时,标记出每个图像中的重要信息。
通过设计算法,显著性检测技术能够使得计算机从给出的图像中,区分出较强的特征来表征图像中区域的属性,并且采用深度学习算法来给每个像素或区域计算权值,来衡量其重要性。下文我们将对不同的算法和应用,进行介绍。
2显著性检测
显著性物体检测的研究,在很早以前就已经有学者进行了。学者们提出了诸多的算法,虽然这些算法各有优劣,但都对这项研究做出了贡献。对于这些算法,Borji等人对它们进行了综合和总结,大致可以分为三大类:基于区域的显著性检测方法,分层的显著性检测方法,基于像素的显著性检测方法。
2.1基于区域的显著性检测方法
基于区域的显著性检测的方法首先将图像分割成了大量的区域,之后以每个区域为单位,去进行特征的提取,并且计算显著值。Cheng等人认为,可靠的视觉显著性的估计,是在没有先验知识的情况下也能够对目标进行处理。因此,他们提出了一种基于区域对比度的显著性检测的算法,该算法同时考虑全局对比性和空间相干性,并取得了较高的精度。Kim等人为每个区域进行提取高维颜色特征,并且采用高维颜色空间变换去计算显著性图,因为在高维颜色空间中,显著性目标和背景很容易进行区分。
这类方法能够提取到很多复杂且区分力强的特征。但是,他们的效率及效果在很大的程度上依赖着分割的区域的个数,和分割区域的方法,对于不同的图像,显著性目标的个数和大小会存在着很大的差异。若将其分割成固定的数量的区域时,则很难做得到去对所有的图像进行准确的显著性检测。
2.2基于分层的显著性检测方法
分层的显著性检测方法,首先将图像分层地表示为包含着不同区域个数的图像分割结果,之后再基于这些分层的区域计算显著性图。Kim等人利用CNN(卷积神经网络Convolutional Neural Networks,CNN)模型为每一个区域学习一个显著性目标的形状,之后由此得到粗糙显著性图,为了在学习的过程之中能保留更多的上下文信息,利用大小不一的区域去进行学习,之后将图像进行多水平的分割,最后基于分割的结果,进一步细化粗糙显著性图,得到最终的结果。Li等人将图像在不同的水平下进行分解,从而得到多个分割结果,之后对每个图像分割结果中的区域构建三个不同的图像块,再用一个CNN模型对其进行特征提取,并且用一个神经网络进行显著性的与预测,最后将不同水平下检测的显著性图,进行线性加权融合,得到最终的检测结果。
通过上述例子,我们能够发现,这类方法利用了所有水平的信息,因此能够得到更好的显著性图,但是计算的效率较低。
2.3基于像素的显著性检测方法
基于像素的显著性检测方法,以图像中的像素为单位提取局部或者全局的特征,并用于显著性检测。Rosin等人先对图像进行简单的边缘检测,阈值分解,距离变换,二值化,来完成显著性检测,该方法简单有效,并且是非参数的。Zhang等人认为图像边界处的像素基本为背景,并且利用最小障碍距离变换,来计算像素之间的距离并估计显著性值,最后结合基于光栅扫描的方法来对算法进行加速,极大提高了计算效率。
因为这类方法以像素为单位进行显著性检测,通常会突出具有强对比度边缘的显著性值,而不是突出整个显著目标的,或将得到显著性值对比度的检测结果,可能得到显著性边缘保持不好的显著性图。
2.4基于深度学习的显著性检测方法
基于深学习的显著性检测方法,可以分为基于区域建议的深度学习目标检测和基于回归的深度学习目标检测两个类别。但从2015年开始,CNN开始被引入进行显著性检测,与基于对比线索的大多数经典方法不同,基于CNN的方法消除了对手工特征的需求减轻了对中心偏见知识的依赖,因此被许多科研人员所采用。He S等人提出了一种新的超像素卷积神经网络方法,称为SuperCNN,可以有效地学习显著性的内部表示。Hou Q等人提出了一种新的显著性检测方法,在HED(Holistically-Nested EdgeDetection)的基础上,增加了一种高层信息指导低层信息的Skip Layer结构,从而构建了一种简单,有效,快速的端对端的显著性物体检测网络结构。 虽然目前有很多的基于深度学习的研究方法,但目前的研究基本都是基于R-CNN系列顯著性目标检测框架和YOLO显著性目标检测框架这两个基本框架。目前研究人员基于这些框架从其他方面入手提出一系列提高目标检测性能的方法。如:难样本挖掘、多层特征融合、使用上下文信息、更深网络学习的特征等。
3.数据集及评价准则
3.1数据集
早期的显著性检测研究是针对眼动图进行的。但是,眼动图是一些离散的人眼注视的空间点,不能表示出整个显著的区域,因此出现了窗口框标注的显著性检测数据集。早期的带有包围窗的来突出物体图像的数据集,有MSRA-A和MSRA-B等。由于这类的数据集过于粗糙,之后出现了一类使用像素方式的二进制掩码来注释显著对象的数据集,例如ASD和DUT-OMRO。
3.2评价准则
对于显著图的素质,我们有着对应的评价准则,下面将对这些准则进行介绍。用S表示归一化为[0,255]的预测显著图,G是显著对象的地面正式二进制掩模。
(1)精确召回(PR)。首先将显著图S转化为二进制掩码M,然后通过将M与地面真值G进行比较来计算Precission和Recall:
(2)F值:通常Precission和Recall都不能完全评估显著图的质量,为此提出F值作为Precission和Recall的非负权重的集权跳河平均:
(3)ROC(Receiver Operating Characteristic)曲线:是以假正率(FP_rate)和假负率(TP_rate)为轴的曲线
(4)ROC曲线下面积(AUC):AUC越大性能越好
(5)平均绝对误差(MAE):进行更全面的比较。
4.总结
本文主要介绍了计算机视觉,显著性检测,深度学习,以及数据集合和评价准则。在信息量剧增的当代,计算机视觉等技术,能够很好地帮助我们去处理数量巨大的图像信息,从而提高我们处理信息的效率,获取更多的有效信息。
目前有非常多的算法去实现显著性检测,这些技术各有优劣,我们在进行实验的同时,也在学习着其他优秀的算法,探索着更为高效的实现方法。我们之所以进行着这些努力,是为了能够将这项技术更好地运用到实际的生活之中。生活中用到的人脸检测,图片分类,照片美化等等,都有着显著性检测技术的应用。而更高效,准确的算法能够使得这些应用有着更高的效率,为我们的生活带来更多的便捷。
参考文献
[1]Qin S,Manduchi R.A fast and robust text spotter[C]//IEEE Winter Conference on Applications of Computer Vision. 2016:1-8
[2]Li G,Yu Y.Visional saliency based on multiscale deep features [C]IEEE Conference on Computer Vision and Pattern Recognition . 2015:5455-5463
[3]Kim J,Han D,Tai Y W,et al.Salient region detection via high-dimensional color transform[C]//IEEE Conference on Computer Vision and Pattern Recognition.2014:883-890
[4]Cheng M M,Mitra N J,Huang X,et al. Global contrast based salient region detection [J].IEEE Transactions on Pattern Analysis and Machine Intelligence,2015,37(3):569-582.
[5]Borji A,Cheng M M,Jiang H,et al.Salient object detection:A survey[J].arXivpreprint arXiv:1411.5878,2014.