论文部分内容阅读
图像语义理解的任务就是对给定的图像进行语言描述和理解,它的研究内容横跨了机器视觉和自然语言处理领域。对比其它任务,该任务不仅要求识别图中的关键物体,同时需要理解各个关键物体之间的关系,从而得到一些抽象的概念,即语义信息,最后用一句相对比较自然的语句表达出来。近年来,随着机器翻译和大数据的兴起,国内外掀起了图像理解的研究浪潮,但是在语义理解的研究中普遍存在描述图像内容的准确性和完整性尚低的现象,同时又由于中文本身的特殊性,使得对图像的中文语义理解这一任务没有取得很好的进展,本文采用自动编码-解码网络主框架,在2017年“AI Challenger.全球AI挑战赛”的图像中文描述子问题提供的比赛库上能够较好的解决上述问题。主要工作包括:●图像特征提取方法的分析与选取。对比与现有的传统手工特征,目前的深度特征更具有优势,在本文中采用深度特征作为图像特征编码,并且在实验中对比和分析了 VGG 网络(The Visual Geometry Group Neural Network)和ResNet(Residual Network)的特征提取对于中文语义理解的效果。●中文标注预处理与编码的方法与实现。由于中文的特殊性,数据在输入神经网络训练之前,需要进行清洗、分词和词嵌入处理。首先,本文通过实验与分析制定相关规则对数据进行清洗,然后对于清洗后的数据选取双向LSTM(Bi-directional Long Short-Term Memory)和 CRF(Cardiovascular Research Foundation)进行分词,分词的准确度达到了 96.8%。最后使用Skip-gram模型库进行词向量嵌入。●语言生成模型的定义和实现,即中文语义生成模型的定义和实现。主要是指将上述得到的图像深度特征和预处理后得到的词向量送入到自动编码-解码网络中进行训练,通过输入值生成最终的中文语义表达。在主框架自动编码-解码网络中主要采用LSTM网络结构,并在其中加入双向软聚焦机制,这样可以使得生成的图像中文语义描述的信息更加丰富、具体。因为双向软聚焦机制可以在对应的LSTM的时间戳上关注图像中与文字相对应的特定区域,生成更加具体和精准的描述。本文主要采用了 TensorFlow框架及Python语言实现了上述研究中的算法,并进行了大量实验分析以验证算法的有效性与实用性。由于实验环境的限制,仅采用了比赛库中的部分数据进行训练和测试。其中训练样本100000个、验证集样本30000和测试样本30000个。实验性能的评价采用BLEU(Bilingual Evaluation Understudy),CIDEr(Consensus-based Image Description Evaluation)和 ROUGEL(Recall-Oriented Understudy for Gisting Evaluation)等三种评判标准,结果表明对于图像中文语义理解任务,可以达到较高的性能,并且描述具有较好的准确性和完整性。