基于深度学习的图像中文文本描述方法研究

来源 :哈尔滨理工大学 | 被引量 : 0次 | 上传用户:miao4701730
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着自媒体时代网络上图像的日益激增,使机器准确理解图像内容,并以自然语言的形式反馈给用户的图像文本描述技术,是当前人工智能领域一个重要研究内容。图像文本描述能在图像检索、无人驾驶、智能服务机器人、早期幼儿教育、虚拟现实等方面发挥重大的作用。图像文本描述是一项结合计算机视觉技术与自然语言处理技术的综合任务,其目标是使机器用一句中文语句描述出图像中的主体、图像中的场景以及图像中物体之间的联系以及它们之间的属性和参与的活动。因此如何对图像中内容进行细致精确的描述,并且生成的语句符合人类的阅读习惯,是图像文本描述的主要问题。近年来,对图像进行英文文本描述的方法取得了突破性的进展,但是由于汉语的特殊性,以及数据集的稀缺,图像中文文本描述的研究虽然可以实现,但是存在着生成中文语句的连贯性与可读性不佳,以及生成的语句对图像内容描述错误等问题。针对这些问题,论文主要进行了以下的研究工作。论文采用深度学习方法进行图像中文文本描述的研究,提出一种新的中文文本描述模型(IRRU)。IRRU模型采用深度卷积神经网络(DCNN)结合双层门控循环单元(GRU)网络来完成对RGB图像的编解码以及中文语句的生成,使用AICC图像中文描述数据集来完成对模型的训练。首先是对图像数据集的特征提取,将ImageNet图像分类数据集预训练好的网络模型参数迁移进Inception_ResNet_V2网络,利用该网络对图像数据集进行特征提取。接着对于文本描述集,利用神经网络语言模型建模的方法对标签词向量进行词嵌入矩阵的构建,并基于全连接的方法将提取到的图像特征映射到词嵌入空间,做到特征维数的统一。最后的语言生成模型,基于GRU设计一个双层GRU网络模型,利用图像特征与词嵌入特征对该网络进行训练并得到最终的图像中文文本描述模型。最后在AICC公开的评估集上进行了测试,利用语言模型客观评估指标Perplexity、BLEU以及ROUGE-L将本文所提模型IRRU与英文文本描述模型NIC以及基于NIC模型额外扩充的模型进行对比,实验结果表明本文所提模型可以对图像中的内容进行中文语句描述,且生成语句的质量优于其余两个模型。
其他文献
<正>达索系统2019大中华区CATIA Hackathon设计大赛已于近日完美收官。本届大赛于3月29日启动,共有118位选手报名参赛。选手们参与了四轮集中线上授课后,筛选组队并分别在五
<正> 随着天津市经济与社会可持续发展战略的实施,再生资源回收和利用产业的发展受到政府有关部门和学术界的广泛关注和高度重视。因此,认真分析天津再生资源利用产业发展中
粮食仓储是国家为了预防自然灾害、调节粮油市场供求关系变化而形成的战略物资准备,是国民经济发展的保障。对于粮食仓储企业来说,加强企业内部控制管理可以实现企业的社会效
为了帮助薄信用的客户获得贷款以改善他们的生活,鉴于心理测量学能够有效地对个体差异进行测量并对行为决策进行预测,很多征信机构或者信用评分公司采用心理测量学方法对借款
微反应器的广泛应用使得微通道内气液两相Taylor流成为近些年的一个研究焦点,化学反应发生在微通道反应器的通道内部,具有过程强化的作用。Taylor流的特点是可以减少通道内返混
从水平抵抗的结构意识到以抗震为基础的结构形态,从“结构即意匠”到“美在合理的近旁”,文章从这两种视角对日本建筑以技术为途径的传统再现进行了阐述。文章不仅从设计方法、
从赶超的对象、内容、时间、步骤、方式方法等方面对毛泽东和邓小平的赶超思想作了较为全面的比较,认为邓小平的赶超思想比毛泽东的赶超思想更科学,也更完善,是对毛泽东赶超思想
目的探讨对重症急性呼吸窘迫综合征采用体外膜肺氧合治疗的临床应用效果。方法选取2018年11月至2019年11月期间在我院进行治疗的100例重症急性呼吸窘迫综合征患者,采用数字随
期刊
网络时代的艺术衍生形式包括但不仅限于大量传播的数码艺术复制品、以网络为媒介的无实体行为艺术、以互联网为载体的但不被认为是艺术的拟像创作和对经典艺术品的再创作。网