论文部分内容阅读
随着计算机网络的发展以及智能手机等多媒体获取设备的普及,多媒体数据呈爆炸式增长,其中图像和视频数据已经成为大数据时代的主要数据类型。如何在海量的图像中以较小的时空开销准确找到用户感兴趣的图像成为多媒体领域的研究热点。针对图像的底层特征与高层语义间的“语义鸿沟”问题,以及全局图像表示缺乏几何不变性和空间占用较大的问题,利用深度学习、特征编码、哈希学习等方面的知识,论文系统探讨了图像检索系统中的描述符构建、特征融合和二值化压缩方法,研究成果同时利用全局和局部信息,结合深度特征及浅层特征,使描述符可以同时捕获全局和局部、高层和低层的信息,通过融合多个特征层次及多尺度信息,增强描述符的区分力和尺度不变性,通过对描述符进行二值化压缩,在不显著降低图像检索准确率的同时节省了存储开销。
针对卷积神经网络高层特征含有丰富的高层语义信息,但缺乏局部信息及底层信息的问题,提出了结合底层颜色、边缘特征和ResNet特征的多层特征融合描述符。多层特征融合描述符同时利用底层的颜色和SIFT特征、中层的卷积层和高层的全连接层特征,将多个层次的特征融合在一个描述符中。为了对描述符各个层次的特征进行进一步的融合,利用神经网络训练了一个非线性变换,将多层特征融合描述符从一个结构化的表示转变成一个非结构化的表示。为了节省存储空间,利用符号函数对描述符进行了二值化压缩,并设计了两种距离计算模式:对称距离计算和非对称距离计算,在计算时仅需载入数据库图像的描述符压缩编码,节省了空间开销,而准确率损失较小。实验结果表明,各个特征层次是有效的,通过非线性变换,有效提高了描述符的准确率,通过二值压缩,在未显著降低准确率的同时,节省了存储空间。
针对卷积神经网络全连接层特征包含丰富的高层语义但缺乏几何不变性以及局部信息的问题,提出了一种包含多尺度信息、具有多层特征的“全局-对象-显著性描述符”。全局-对象-显著性描述符由全局层、对象层以及显著性区域层三个层次构成。全局层通过多分辨率策略来捕获多个尺度的全局信息,对象层利用对象检测方法提取多尺度的对象以捕获对象层的多尺度信息,显著性区域层通过深度显著性区域检测网络来捕获图像显著性区域的信息。图像中的对象大小和位置是不确定的,全局-对象-显著性描述符通过在全局层、对象层融入多尺度信息来增强图像全局描述符的几何不变性。全局-对象-显著性描述符集成了来自整幅图像的信息、方形对象区域的信息以及显著性区域的信息。实验结果表明,全局-对象-显著性描述符的三个层具有互补性且是有效的,加入显著性信息可以有效提高描述符的区分力,在图像检索公共数据集上取得了较高的准确率。
为了减少描述符的空间占用,提出了一种迭代的稀疏哈希学习算法-多层语义二值描述符学习算法,在最小化量化误差的同时,利用稀疏性去除具有多个语义层次的浮点描述符的冗余信息,在压缩描述符的同时尽可能减少信息损失,保证二值化后的区分力;通过正交变换消除特征向量各维相关性,增加哈希码信息含量;逐步交替执行稀疏化、更新旋转矩阵以及更新编码矩阵的操作。为进一步提升查询的准确率,提出了一个不相似性度量,同时融合哈希码包含的视觉信息以及类概率向量包含的高层概念信息,可以有效提高查询的准确率。在图像检索公共数据集上的实验表明,多层语义二值描述符不仅占空间较小且具有较强的区分力,以较小的空间开销在准确率上超过了很多浮点描述符方法。
论文在多层特征融合、增加描述符的尺度不变性和区分力以及对描述符进行二值化压缩等方面做了深入研究,但需要研究的问题还有很多。论文的研究主要关注的是提高描述符的区分力和减少描述符空间开销,在提取速度上依然有所不足,如何提高描述符的提取速度需要进一步的研究。如何同时利用图像标签文本语义信息和图像视觉信息来进一步提高描述符的区分力是需要进一步研究的问题。多层语义二值描述符是一个二阶段的方法,并非最优,如何将多层语义二值描述符与“端到端”的学习方法相结合,同时学习特征提取器和哈希函数以生成一个最优的二值图像描述符仍需进一步研究。
针对卷积神经网络高层特征含有丰富的高层语义信息,但缺乏局部信息及底层信息的问题,提出了结合底层颜色、边缘特征和ResNet特征的多层特征融合描述符。多层特征融合描述符同时利用底层的颜色和SIFT特征、中层的卷积层和高层的全连接层特征,将多个层次的特征融合在一个描述符中。为了对描述符各个层次的特征进行进一步的融合,利用神经网络训练了一个非线性变换,将多层特征融合描述符从一个结构化的表示转变成一个非结构化的表示。为了节省存储空间,利用符号函数对描述符进行了二值化压缩,并设计了两种距离计算模式:对称距离计算和非对称距离计算,在计算时仅需载入数据库图像的描述符压缩编码,节省了空间开销,而准确率损失较小。实验结果表明,各个特征层次是有效的,通过非线性变换,有效提高了描述符的准确率,通过二值压缩,在未显著降低准确率的同时,节省了存储空间。
针对卷积神经网络全连接层特征包含丰富的高层语义但缺乏几何不变性以及局部信息的问题,提出了一种包含多尺度信息、具有多层特征的“全局-对象-显著性描述符”。全局-对象-显著性描述符由全局层、对象层以及显著性区域层三个层次构成。全局层通过多分辨率策略来捕获多个尺度的全局信息,对象层利用对象检测方法提取多尺度的对象以捕获对象层的多尺度信息,显著性区域层通过深度显著性区域检测网络来捕获图像显著性区域的信息。图像中的对象大小和位置是不确定的,全局-对象-显著性描述符通过在全局层、对象层融入多尺度信息来增强图像全局描述符的几何不变性。全局-对象-显著性描述符集成了来自整幅图像的信息、方形对象区域的信息以及显著性区域的信息。实验结果表明,全局-对象-显著性描述符的三个层具有互补性且是有效的,加入显著性信息可以有效提高描述符的区分力,在图像检索公共数据集上取得了较高的准确率。
为了减少描述符的空间占用,提出了一种迭代的稀疏哈希学习算法-多层语义二值描述符学习算法,在最小化量化误差的同时,利用稀疏性去除具有多个语义层次的浮点描述符的冗余信息,在压缩描述符的同时尽可能减少信息损失,保证二值化后的区分力;通过正交变换消除特征向量各维相关性,增加哈希码信息含量;逐步交替执行稀疏化、更新旋转矩阵以及更新编码矩阵的操作。为进一步提升查询的准确率,提出了一个不相似性度量,同时融合哈希码包含的视觉信息以及类概率向量包含的高层概念信息,可以有效提高查询的准确率。在图像检索公共数据集上的实验表明,多层语义二值描述符不仅占空间较小且具有较强的区分力,以较小的空间开销在准确率上超过了很多浮点描述符方法。
论文在多层特征融合、增加描述符的尺度不变性和区分力以及对描述符进行二值化压缩等方面做了深入研究,但需要研究的问题还有很多。论文的研究主要关注的是提高描述符的区分力和减少描述符空间开销,在提取速度上依然有所不足,如何提高描述符的提取速度需要进一步的研究。如何同时利用图像标签文本语义信息和图像视觉信息来进一步提高描述符的区分力是需要进一步研究的问题。多层语义二值描述符是一个二阶段的方法,并非最优,如何将多层语义二值描述符与“端到端”的学习方法相结合,同时学习特征提取器和哈希函数以生成一个最优的二值图像描述符仍需进一步研究。