论文部分内容阅读
人工智能技术的发展已经越来越成熟,许多基于人工智能技术的高科技公司如雨后春笋般涌现,甚至有不少企业已经生产出了能够改变我们日常生活的人工智能产品。而人工智能技术可以取得如此令人印象深刻的成果,却并非一蹴而就。自1956年人工智能技术诞生至今,已经经历了多次的爆发期与寒冬期,而这次人工智能技术的爆发更加来势汹汹,因为其与之前几次的爆发期相比,具有一个鲜明的特点——以大数据为基础。大数据不仅仅是因其数据量大,更重要的是其数据种类具有多样性,且数据的价值密度较低。我们每天都会产生和接收各种信息,而这些信息都会被记录下来,然后通过各种人工智能技术来分析我们的日常行为、生活习性,以便为我们的生活提供各种便利性的服务。在海量的多媒体数据之中,有些数据并不是相互独立的,它们很可能是对同一事物的不同表现方式,在语义上具有一定的相似性。如何从这些不同类型的数据中检索到需要的数据逐渐已经成为人们的迫切需求,也得到了学术界的广泛关注,这就是跨模态检索。跨模态检索的根本目的是寻找不同模态间具有相似性的样本,是以一种模态的数据作为输入,在数据库中检索出在语义上具有相似性的另一种模态的数据的方法。而哈希方法因为其可以有效的降低数据的存储成本,同时可以加速检索的过程,逐渐成为解决跨模态检索问题的常用方法。然而,现有的基于散列的跨模态检索方法通常对标签数据的利用率不高。同时,由于现有数据存在正负样本不平衡问题,对检索效果有一定影响。针对上述问题,本文提出了一种自监督的跨模态融合散列方法,对类别标签数据进行特征提取。使其能够对数据的语义相关性进行建模,使得在语义特征的监督下,图像与文本数据的特征分布能够趋于一致,帮助不同模态的哈希学习模型更准确地学习相似模态数据之间的语义相似度;同时加入语义保留模块,优化分类损失,使得生成的哈希码可以尽可能地保留语义相似性;设计自适应权重的损失函数,根据每次输入神经网络的训练样本中正负样本的比例,灵活地调整对正负样本分类错误的惩罚的权重;使用二值约束正则项函数,最小化其误差,确保生成的近似哈希码的数值靠近+1或者-1,提升检索的准确率。最后,为了验证本算法的实际效果,将其与一些流行的跨模态检索算法在几个公共数据集上进行比较。结果表明,该算法可以有效提高跨模态检索的准确性。