论文部分内容阅读
摘要:随着互联网平台上各类APP在人们之中的盛行,快速图像检索技术更新的需求日益迫切,因此近十年来在快速图像检索领域应用广泛的哈希算法越来越无法满足人们的需求。本文通过在哈希算法中引入深度学习的概念,同时运用分类和验证信息等多监督方式,最终形成可以应用于快速图像检索的深度多监督哈希(Deep Multi-supervised Hashing,DMSH)。深度多监督哈希DMSH可以极大地提升快速图像检索在时间和空间上的效率,提高为用户检索所需信息的准确度。
关键词:深度哈希;多监督;图像检索
引言
随着各类社交平台在人们生活中盛行,图片、影像等数据呈现飞跃式增,人们迫切需求更高效的数据处理方式。哈希方法便是一种高效的数据查找方式,它通过将图像数据转换为低维表示或者一组有序的二进制编码,大为减少了图像所需的存储空间。同时直接读取图像哈希码的检索时间,比读取高维图像文本特征的检索时间更短。之后,深度学习概念的引入进一步提高了哈希算法的实用性,通过在输入图像后构建卷积层,引入分类信息和验证信息等多监督方式,DMSH能够同时进行图像特征的提取和哈希函数的学习,极大程度地加强其在图像特征上的表达能力,从而在时间和空间上更有效率的检索图像。
一、快速图像检索的现存技术不足
(一)传统哈希方法无法满足快速图像检索的效率需求
传统哈希方法包括局部敏感哈希(Locality Sensitive Hashing,LSH)和谱哈希(Spectral Hashing,SH)等,在图像数据特征的标记过程中需要手工进行,同时分步骤进行图像特征提取和将特征转换为哈希码。但手工进行特征标记意味着只能进行线性特征的编码,难以捕捉转换图片中隐含的语义信息。如LSH便是将通过哈希变换后相似图像对的数据,采用随机映射算法放入相同的原始数据分区内,让具有相似特征的图像划分在相同的空间中。因此,随着图像数据的增多,为了准确表达图像数据的特征并将其放入相应的原始数据分区内,往往需要输出很长的哈希编码来将特征全部包含在内,从而保证其有效性,但图像检索的响应时间也会随哈希码的增长变长。
(二)哈希码提取不完善使图像检索不准确
图像数据随互联网发展不断增多,在进行图像的成对对输入时,非相似图像的组合要远多于相似图像组合,正负样本之间存在失衡的问题。由于这些非平衡数据的存在,在正样本中的图像分类任务中准确率可以近乎 100% ,但与此同时在负样本中进行的分类任务准确率却不到10%。因此,一般哈希算法中快速图像检索的准确性会随着图像数据的增多而下降。同时,为了保持欧式空间和汉明空间的一致性,传统哈希方法一般通过激活函数的方式来逼近离散二值,但这会使得反向传播变得困难,当图像的训练数据增多时还会相应的产生训练时间加长的问题,不利于进行图像的快速检索。而如果采用sigmoid等非线性函数则会减缓网络收敛的速度,导致图像检索时无法准确查找相似图片。
二、深度多监督哈希在快速图像检索上的应用
(一)深度多监督哈希的结构
DMSH是一种在深度学习基础上构建的多监督哈希网络,具体的网络结构如下图所示。
在进行成组图像的输入时,先经过一个卷积层,在经过由38个两两相连的Block结构和卷积采样层形成的基础模块,最后再经过两个全连接层和单独的特征层后,分别进入用于约束的分类、验证和哈希分支。在最后的约束环节中通过将每副图像分类到不同的子类中,让深度哈希学习到的特征能够很好地预测图像的标签信息,保证哈希编码的在类别上的可区分性,从而增加图像的类间距离。然后是利用验证任务,让信息相近的图像映射得到相似的特征,信息差异大的图像在映射后得到非相似的特征,从而将相似图像的类内距离不断减小。在该网络模型中,能够同时进行特征学习和哈希函数的训练,极大地缩短了网络查询的时间,提高了网络查询的效率。
(二)更新损失函数获得更优秀的哈希编码
首先我们可以引入加权的方法,通过增加相似图像对的权重、添加惩罚项降低非相似图像对的权重等方式,构建更合理的的损失函数:
式中:将用来衡量从不同图像中获得的特征值之间的距离。α、β则作为调节正负样本不平衡的超参。
其次,在分类任务中引入softmax函数,将输入的特征分到不同的类中:
式中:当i≠t时,目标概率分布Pi=0,则预测概率分布P1=1
最后则是用欧式距离替代汉明距离,通过将输出的哈希编码每一维数据的绝对值与1求方差,使输出数据最大化或最小化从而接近-1或+1,输出近似二值的特征:
式中:a是向量,在k维上,k=12,12,36,48bit。
综上所述,总体的损失函数可以设为:
式中:是上述函数所求值在总函数中的权重。
在整个DMSH网络结构中,当将任意图像输入检索相似图片时时,都能从图像中提取出能准确、完整地描述图像包含信息的哈希编码,然后根据哈希码寻找相似图片并按共有特征的重合程度进行排列,从而将快速图像搜索准确性提升到更高。
结语
基于深度多监督哈希构建的快速图像检索技术,能够获得差异更小的图像真值特征和哈希特征,同时将分类信息和驗证信息等作为监督方式,降低图像数据类内距离并扩大其类间距离,从而提升快速图像检索在时空上的效率。通过在损失函数中加入了量化误差、权重惩罚等方法,降低正样本与负样本之间数据不平衡对结果的影响。同时在网络输出上进行正则化从而减少图像真值特征和哈希特征的不同,最终得到紧凑而表达准确的哈希编码。深度多监督哈希不仅在快速图像搜索领域能够发挥出更高效的应用,还可以广泛应用于人像搜索、社科以及地理环境等其他科学。
参考文献
[1]李泗兰,郭雅.基于深度学习哈希算法的快速图像检索研究[J].计算机与数字工程,2019,47(12):3187-3192.
[2]王华秋,郎帅.深度哈希卷积网络在图像检索中的应用[J].重庆理工大学学报(自然科学),2019,33(03):98-106.
关键词:深度哈希;多监督;图像检索
引言
随着各类社交平台在人们生活中盛行,图片、影像等数据呈现飞跃式增,人们迫切需求更高效的数据处理方式。哈希方法便是一种高效的数据查找方式,它通过将图像数据转换为低维表示或者一组有序的二进制编码,大为减少了图像所需的存储空间。同时直接读取图像哈希码的检索时间,比读取高维图像文本特征的检索时间更短。之后,深度学习概念的引入进一步提高了哈希算法的实用性,通过在输入图像后构建卷积层,引入分类信息和验证信息等多监督方式,DMSH能够同时进行图像特征的提取和哈希函数的学习,极大程度地加强其在图像特征上的表达能力,从而在时间和空间上更有效率的检索图像。
一、快速图像检索的现存技术不足
(一)传统哈希方法无法满足快速图像检索的效率需求
传统哈希方法包括局部敏感哈希(Locality Sensitive Hashing,LSH)和谱哈希(Spectral Hashing,SH)等,在图像数据特征的标记过程中需要手工进行,同时分步骤进行图像特征提取和将特征转换为哈希码。但手工进行特征标记意味着只能进行线性特征的编码,难以捕捉转换图片中隐含的语义信息。如LSH便是将通过哈希变换后相似图像对的数据,采用随机映射算法放入相同的原始数据分区内,让具有相似特征的图像划分在相同的空间中。因此,随着图像数据的增多,为了准确表达图像数据的特征并将其放入相应的原始数据分区内,往往需要输出很长的哈希编码来将特征全部包含在内,从而保证其有效性,但图像检索的响应时间也会随哈希码的增长变长。
(二)哈希码提取不完善使图像检索不准确
图像数据随互联网发展不断增多,在进行图像的成对对输入时,非相似图像的组合要远多于相似图像组合,正负样本之间存在失衡的问题。由于这些非平衡数据的存在,在正样本中的图像分类任务中准确率可以近乎 100% ,但与此同时在负样本中进行的分类任务准确率却不到10%。因此,一般哈希算法中快速图像检索的准确性会随着图像数据的增多而下降。同时,为了保持欧式空间和汉明空间的一致性,传统哈希方法一般通过激活函数的方式来逼近离散二值,但这会使得反向传播变得困难,当图像的训练数据增多时还会相应的产生训练时间加长的问题,不利于进行图像的快速检索。而如果采用sigmoid等非线性函数则会减缓网络收敛的速度,导致图像检索时无法准确查找相似图片。
二、深度多监督哈希在快速图像检索上的应用
(一)深度多监督哈希的结构
DMSH是一种在深度学习基础上构建的多监督哈希网络,具体的网络结构如下图所示。
在进行成组图像的输入时,先经过一个卷积层,在经过由38个两两相连的Block结构和卷积采样层形成的基础模块,最后再经过两个全连接层和单独的特征层后,分别进入用于约束的分类、验证和哈希分支。在最后的约束环节中通过将每副图像分类到不同的子类中,让深度哈希学习到的特征能够很好地预测图像的标签信息,保证哈希编码的在类别上的可区分性,从而增加图像的类间距离。然后是利用验证任务,让信息相近的图像映射得到相似的特征,信息差异大的图像在映射后得到非相似的特征,从而将相似图像的类内距离不断减小。在该网络模型中,能够同时进行特征学习和哈希函数的训练,极大地缩短了网络查询的时间,提高了网络查询的效率。
(二)更新损失函数获得更优秀的哈希编码
首先我们可以引入加权的方法,通过增加相似图像对的权重、添加惩罚项降低非相似图像对的权重等方式,构建更合理的的损失函数:
式中:将用来衡量从不同图像中获得的特征值之间的距离。α、β则作为调节正负样本不平衡的超参。
其次,在分类任务中引入softmax函数,将输入的特征分到不同的类中:
式中:当i≠t时,目标概率分布Pi=0,则预测概率分布P1=1
最后则是用欧式距离替代汉明距离,通过将输出的哈希编码每一维数据的绝对值与1求方差,使输出数据最大化或最小化从而接近-1或+1,输出近似二值的特征:
式中:a是向量,在k维上,k=12,12,36,48bit。
综上所述,总体的损失函数可以设为:
式中:是上述函数所求值在总函数中的权重。
在整个DMSH网络结构中,当将任意图像输入检索相似图片时时,都能从图像中提取出能准确、完整地描述图像包含信息的哈希编码,然后根据哈希码寻找相似图片并按共有特征的重合程度进行排列,从而将快速图像搜索准确性提升到更高。
结语
基于深度多监督哈希构建的快速图像检索技术,能够获得差异更小的图像真值特征和哈希特征,同时将分类信息和驗证信息等作为监督方式,降低图像数据类内距离并扩大其类间距离,从而提升快速图像检索在时空上的效率。通过在损失函数中加入了量化误差、权重惩罚等方法,降低正样本与负样本之间数据不平衡对结果的影响。同时在网络输出上进行正则化从而减少图像真值特征和哈希特征的不同,最终得到紧凑而表达准确的哈希编码。深度多监督哈希不仅在快速图像搜索领域能够发挥出更高效的应用,还可以广泛应用于人像搜索、社科以及地理环境等其他科学。
参考文献
[1]李泗兰,郭雅.基于深度学习哈希算法的快速图像检索研究[J].计算机与数字工程,2019,47(12):3187-3192.
[2]王华秋,郎帅.深度哈希卷积网络在图像检索中的应用[J].重庆理工大学学报(自然科学),2019,33(03):98-106.