论文部分内容阅读
近几年迎来信息爆炸的时代,互联网、电子商务、云计算及移动社交媒体等信息技术的迅速发展使得数据的数量和规模急剧增加,多类型大规模的数据对数据的处理速度及存储能力方面都有更高的需求,不仅要在可接受时间内处理大规模数据,同时数据的存储容量也要限制在可承受范围内,这对于当前大规模多模态数据的检索仍然是一个挑战。为了解决高维大规模数据的近似最近邻检索问题,基于哈希的近似最近邻检索方法应运而生,哈希方法将原始数据用长度固定的二值哈希码来表示,并使得原始特征空间中的语义关系等相似性信息在海明空间中依旧保持。大多数传统的哈希方法主要针对单模态数据,解决的是单个模态内的数据检索问题,而随着信息技术的快速发展导致数据的爆炸性增长,多模态数据越来越多,而对于多个模态之间的数据检索需求场景也日益增多,如以文搜图等,因此跨模态哈希检索成为一种行之有效的解决方案。目前已经出现了多种基于机器学习的跨模态哈希方法,并取得了不错的检索效果,但是仍有几个限制其性能的问题存在:1)由于二值离散优化问题较难解决,一些方法对离散条件进行松弛,首先求出哈希码的实值表示,之后对得到的实值表示进行二值化得到最终的哈希码,然而这种松弛优化方式会产生较大的量化误差,使得最终哈希码的检索效果下降;2)当前也有一些方法直接进行离散优化,但都以牺牲训练时间为代价,导致优化所需时间大大增加;3)在监督信息的选择上,有的方法选择使用n × n的相似性矩阵进行相似性保持,但这会导致其训练的时间复杂度从线性O(n)上升到O(n2),进而增加了其扩展到大规模数据集的难度。综合考虑上述问题之后,本文提出一种有监督哈希方法——基于矩阵分解的可扩展离散哈希,简称为SCRATCH。该方法结合矩阵分解以及标签嵌入来解决相似性保持和可扩展性问题,引入随机正交旋转矩阵来保持优化过程中哈希码的离散特性,从而可快速地完成模型训练并提升检索精度。本文主要贡献总结如下:·提出一种全新的基于矩阵分解的有监督跨模态哈希方法,通过借助协同矩阵分解(CMF)和标签语义嵌入,SCRATCH可充分利用现有的监督语义信息来找到一个公共子空间,使得形态各异的数据之间的隐含语义关联能够被有效地捕捉到,从而尽可能的保持模态间和模态内的语义相似性。· SCRATCH使用标签矩阵而非相似性矩阵,因此其训练的时空复杂度始终与数据集规模保持为线性关系,可方便的扩展到大规模多模态数据集上。·为了避免使用松弛技术解决离散优化问题造成的巨大量化误差,SCRATCH引入随机正交旋转矩阵使得训练过程中始终保持哈希码的离散特性,并结合迭代优化的策略,从而最小化训练过程中的量化误差,而且由于使用的是矩阵优化技术,矩阵的解均可通过求导得出其闭式解,因此避免了其他离散优化技术以增加训练时间为代价的问题。·通过在三个多模态数据集上进行对比实验,包括检索性能、训练时间以及使用深度网络提取图像模态特征结合SCRATCH的损失函数来与当前先进的深度跨模态哈希方法进行性能对比,可以看到本文方法在各个指标上达到当前卓越的性能的同时,训练时间大大降低,从而可以方便的扩展到大规模数据集上,具有极高的有效性和实用性。