论文部分内容阅读
近来,随着信息技术的高速发展,各行各业的数据积累都呈爆炸式增长,这意味着我们已经进入了大数据时代。大数据主要体现在两方面:数据量和数据维度的不断增长以及数据类型的日益增多。大数据在各行各业都有着广泛的应用,已经成为国家重点战略资源。存储,管理,分析大数据已经成为了学术界和工业界的热点话题,大数据检索也成为一个主要问题。为了有效利用大数据,机器学习技术至关重要。由于数据量和数据维度的不断增长,例如,微信和QQ光是活跃用户就有8亿多,2017年淘宝双十一成交额达到1682亿元,在大数据检索中进行精确最近邻搜索已经难以实现,于是近似最近邻搜索在大数据检索中扮演起重要的角色。近似最近邻搜索通过比较数据间的相似度返回与输入数据最相似的结果集。这一方法在时间复杂度低的同时能保持相对准确的检索精度。近似最近邻搜索在很多应用中起到关键作用,例如跨模态检索。随着数据类型的日益增多,在很多场景中,一个对象存在着多种模态,如图片,文本等。例如,新浪微博上仅仅带有文字描述的图片就有36亿之多。跨模态检索是为了找出不同模态间的相关性,从而实现用一种模态检索出与其相似的另一模态。跨模态检索不但需要注意模态间的相关性,同时也需要保证模态内的相关性。随着对跨模态检索的研究与日俱增,跨模态检索也成为一个新兴的问题。在大数据检索中,由于哈希方法存储容量低,检索速度快,基于哈希的近似最近邻搜索方法得到广泛关注。哈希方法把数据的原始特征映射到低维的二进制空间,即海明空间,并尽可能多地保留数据信息,例如局部结构,语义信息等。数据间的相似度可以通过计算其哈希码的海明距离快速获得。哈希方法不但能够降低数据存储和通讯开销,还能降低数据维度,显著提升检索效率。此外,基于哈希的跨模态检索方法也被提出来执行不同模态间的高效搜索。有些方法通过对目标函数进行松弛,如近似替代;有些方法分为两步分别获得哈希函数跟哈希码;有些方法使用特别复杂的目标函数。这些方法有的会造成大量的信息损失,有的训练速度会非常慢。此外,跨模态检索还需要考虑一些其他问题。例如,有些方法不能充分地利用标签信息,而标签信息是数据信息中最为有用的一部分;有的方法在优化过程中松弛二进制限制,然后将输出的连续值简单地二值化,从而产生大量量化误差。考虑到上述问题,本文提出了一个新的跨模态哈希方法——监督的跨模态无松弛哈希,它不但能充分利用标签信息,还能无松弛地产生最终的哈希码。该方法通过将不同模态特征映射到一个低维同构空间以保持其模态间的相似性,并加入标签信息保持其模态内的相似性,同时学习出一个正交旋转矩阵以最小化量化误差并在线性时间内学习出最终的哈希码。本文同时提出了一个迭代算法来解决目标函数的优化问题。上文提到的方法将在三个数据集上进行实验,包括自我验证实验和与其它跨模态哈希方法进行对比实验,实验结果表明本文提出的监督跨模态无松弛哈希方法在跨模态搜索任务中与其它方法相比,具有明显的效果提升。