论文部分内容阅读
近年来,随着电子商务平台规模的不断扩大,对商家上传的商品图像和文本描述信息进行审核,判断两者是否匹配,成为一项任务量巨大的工作。目前电子商务平台信息审核采用人工的方式进行,存在自动化程度低、审核实时性难以保证和资源耗费大等问题。另外,电子商务平台中的商品信息具有分类细致的特殊性,采用人工审核的方式难以区分出商品类别之间的细微差距,增加了审核工作的困难。因此,如何有效地对商品图像和文本描述进行细粒度的标注,判断图像文本是否匹配,自动化且实时地完成审核过程是一个具有广泛应用前景的研究问题。本文从实际的需求出发,提出了一个基于卷积神经网络与长短期记忆网络的商品图像和文本匹配方法。通过利用深度网络模型的特征提取能力,来对图像和文本进行标注,解决传统提取特征后训练分类器的方法无法实现细粒度分类的问题,自动化地完成商品信息的审核任务。本文的主要研究工作包括:一、提出了一套基于深度网络模型的图像和文本匹配框架。不同于传统的图像或文本标注方法将特征提取和分类器训练分为两个独立的步骤,该方法通过利用深度网络模型的特征提取能力,完成端到端的训练,实现细粒度分类的目标,最后通过类别比较地方式实现图像文本的匹配过程。二、设计了一种针对图像的自动化标注方法,该方法以卷积神经网络模型为基础进行实现。为了解决训练卷积神经网络需要大量训练样本避免过拟合与标注数据有限的矛盾,通过对原有图像进行翻转变换等操作生成新图像加入数据集实现数据增强,完成对数据集的扩充。同时对于大部分的图像而言都包含了两部分区域,即目标物体所在的区域和背景区域,为了有效提高准确率首先采用区域分割技术将训练集样本裁剪到只包含目标物体的部分。最后将经过数据增强与区域分割处理后的数据用于卷积神经网络的训练得到模型实现图像自动化标注。三、设计了一种针对文本描述的自动化标注方法,该方法以长短期记忆网络为基础进行实现。针对传统处理方法将单词看作独立的个体而没有考虑词与词之间的语义关系的不足,借助word2vec模型将单词转换成分布式词向量。同时对标注文档通过TextRank提取出关键词,将这些关键词对应的词向量拼接成矩阵后作为长短期记忆网络的输入用于训练得到模型实现文本自动化标注。四、设计并实现了基于上述标注方法图像与文本匹配的原型系统。原型系统使用Java语言进行开发,通过Caffe和TensorFlow进行模型的训练,利用TFS存储图像和文本文件,采用MySQL实现结构化数据持久化。本文所提出的基于深度网络模型的图像和文本匹配框架有效的解决了实际的需求,最后通过原型系统的设计和实现,验证了本文方法的有效性。