基于深度学习的图像中文语义理解研究

来源 :厦门大学 | 被引量 : 0次 | 上传用户：rgr

【摘要】

：

图像语义理解的任务就是对给定的图像进行语言描述和理解,它的研究内容横跨了机器视觉和自然语言处理领域。对比其它任务,该任务不仅要求识别图中的关键物体,同时需要理解各

【作者】

：

赵全丽

【出处】

：

厦门大学

【发表日期】

：

2004年期

【关键词】

：

深度学习中文语义理解自动编码-解码网络数据预处理软聚焦机制

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

图像语义理解的任务就是对给定的图像进行语言描述和理解,它的研究内容横跨了机器视觉和自然语言处理领域。对比其它任务,该任务不仅要求识别图中的关键物体,同时需要理解各个关键物体之间的关系,从而得到一些抽象的概念,即语义信息,最后用一句相对比较自然的语句表达出来。近年来,随着机器翻译和大数据的兴起,国内外掀起了图像理解的研究浪潮,但是在语义理解的研究中普遍存在描述图像内容的准确性和完整性尚低的现象,同时又由于中文本身的特殊性,使得对图像的中文语义理解这一任务没有取得很好的进展,本文采用自动编码-解码网络主框架,在2017年“AI Challenger.全球AI挑战赛”的图像中文描述子问题提供的比赛库上能够较好的解决上述问题。主要工作包括:●图像特征提取方法的分析与选取。对比与现有的传统手工特征,目前的深度特征更具有优势,在本文中采用深度特征作为图像特征编码,并且在实验中对比和分析了 VGG 网络(The Visual Geometry Group Neural Network)和ResNet(Residual Network)的特征提取对于中文语义理解的效果。●中文标注预处理与编码的方法与实现。由于中文的特殊性,数据在输入神经网络训练之前,需要进行清洗、分词和词嵌入处理。首先,本文通过实验与分析制定相关规则对数据进行清洗,然后对于清洗后的数据选取双向LSTM(Bi-directional Long Short-Term Memory)和 CRF(Cardiovascular Research Foundation)进行分词,分词的准确度达到了 96.8%。最后使用Skip-gram模型库进行词向量嵌入。●语言生成模型的定义和实现,即中文语义生成模型的定义和实现。主要是指将上述得到的图像深度特征和预处理后得到的词向量送入到自动编码-解码网络中进行训练,通过输入值生成最终的中文语义表达。在主框架自动编码-解码网络中主要采用LSTM网络结构,并在其中加入双向软聚焦机制,这样可以使得生成的图像中文语义描述的信息更加丰富、具体。因为双向软聚焦机制可以在对应的LSTM的时间戳上关注图像中与文字相对应的特定区域,生成更加具体和精准的描述。本文主要采用了 TensorFlow框架及Python语言实现了上述研究中的算法,并进行了大量实验分析以验证算法的有效性与实用性。由于实验环境的限制,仅采用了比赛库中的部分数据进行训练和测试。其中训练样本100000个、验证集样本30000和测试样本30000个。实验性能的评价采用BLEU(Bilingual Evaluation Understudy),CIDEr(Consensus-based Image Description Evaluation)和 ROUGEL(Recall-Oriented Understudy for Gisting Evaluation)等三种评判标准,结果表明对于图像中文语义理解任务,可以达到较高的性能,并且描述具有较好的准确性和完整性。

其他文献

水声目标特征提取与分类识别技术研究

水声目标识别是现代海战中的关键技术之一,是水声设备与武器系统智能化的重要标志,具有重要的军事应用价值。然而,海洋环境的复杂性及多变性对水声目标系别系统的稳定性产生

学位

水声目标识别特征提取Gammatone滤波器组希尔伯特-黄变换BP神经网络支持向量机

基于流行度预测的流媒体代理缓存替换算法

针对流行度随时间变化的特性，利用回归分析皮术给出了一种流媒体文件的流行度预测算法，并在增加少量存储空间及计算时间消耗的情况下，将该预测算法应用于流媒体代理缓存服务器的

期刊

流媒体流行度预测代理缓存缓存替换算法Streaming media Popularity prediction Proxy cache Cache re

应用型本科院校日语专业基础教学模式探析

【摘要】随着中国对外贸易的不断发展，中日贸易在其中起着非常重要的作用，因此，对日语专业人才的需求也呈上升趋势。本科院校特别是应用型本科院校，完善教学体系，探析教学模式，让日语专业学生更能适应市场经济的需要。本文明晰了应用型本科院校人才培养定位，通过构建符合人才培养目标的课程体系，提出了提升日语专业教学质量的基础教学模式。　　【关键词】应用型日语专业教学模式　　【基金项目】项目名称：应用型本科院

期刊

应用型日语专业教学模式

基于可调谐半导体激光器的高分辨率多路复用光纤光栅波长解调系统

构建了一套高分辨率的可复用光纤光栅波长解调系统.采用波长调谐范围为1 546nm至1 558nm的紧凑型可调谐半导体激光器作为光源,来提高系统的紧凑性、波长分辨率以及响应速度,

期刊

光纤光学光纤光栅传感系统可调谐半导体激光器重心算法Fiber optics Fiber Bragg grating sensor system Tuna

六角密排多迭层碳纳米管阴极的大电子发射电流和高电子发射稳定性

研制了一种六角密排多迭层碳纳米管阴极.在这种结构中,衬底银电极由烧结的银浆制作在透明锡铟氧化物电极上,且具有六角形边缘,相邻衬底银电极交错排列于阴极面板上.用ZnO和Sn

期刊

碳纳米管阴极制作工艺发射电流发射稳定性银电极结构Carbon nanotube cathode Fabrication process Emissi

推进煤炭企业战略性重组的思考

在我国加入WTO之际,如何面对经济全球化的新挑战,进而创造条件,趋利避害,促进经济发展,是摆在煤炭行业面前的一项紧迫课题.笔者认为,必须在加快产业、产品结构调整步伐的同时

期刊

煤炭企业战略性重组产品结构调整集团化战略投资决策机制人才制度

食品中反式脂肪酸的研究现状及其进展

反式脂肪酸是一种具反式构型的不饱和脂肪酸。现代研究表明，它对人体健康有着一定的负面影响．本文从反式脂肪酸的结构、性质、食物来源、检测方法及降低TFA措施等方面进行综述

期刊

食品反式脂肪酸措施

可双参量同时测量的光纤磁场传感器

设计并制作了一种马赫-曾德尔干涉仪(Mach-Zehnder Interferometer,MZI)与光纤布喇格光栅级联的光纤磁场传感器,其中MZI由相当于分光器的锥结构和相当于耦合器的花生锥结构级联组成,封装在填充了磁流体的毛细管中.由于磁流体的有效折射率会随着外界磁场强度的改变而变化,故可通过观察干涉谱的特征波长的变化来测量外界磁场强度,而光纤布喇格光栅透射峰对磁场强度不敏感.当磁场强度由0m

期刊

光纤传感器马赫-曾德尔干涉仪锥结构花生锥结构FBG磁场温度Fiber sensor Mach-Zehnder interferometer Ta

试析如何开展普通高校舞蹈啦啦操课程教学

【摘要】目前，普通高校体育教学中，舞蹈啦啦操是一种新兴的项目，强调整体动作的风格化和艺術性，具有良好的表演和健身功能，应该得到相应的推广，本文就如何更好地开展普通高校舞蹈啦啦操课程的教学进行了研究，希望我国普通高校可以借鉴上述内容对自身存在的问题进行改进，从而使舞蹈啦啦操在高校可以顺利地发展。　　【关键词】普通高校舞蹈啦啦操教学内容　　【中图分类号】G837-4 【文献标识码】A 【文章编号】

期刊

普通高校舞蹈啦啦操教学内容

基于深度学习的图像中文语义理解研究

其他学术论文