论文部分内容阅读
针对图像语义理解任务中如何在单词生成的不同阶段有效地利用图像局部信息和语义信息,提出了一种引入词向量和双注意力机制的图像语义理解算法。该算法采用编码器-解码器结构,利用Resnet-50网络模型提取图像的底层特征,应用输入阶段和输出阶段分别引入了注意力机制的长短期记忆网络实现,图像特征到图像语义的变换,同时在每个解码阶段都引入了表征语义信息的词向量。在MS COCO2014数据库上进行训练和测试,从实验结果可知,提出的算法能更高效地利用图像的局部特征信息和语义信息,生成的图像语义表达更加准确,且BL