【摘 要】
:
随着互联网和计算机智能的飞速发展,图像数据和视频数据急剧增加。为了更好满足人们对图像信息和视频信息的需求,急需对图像和视频进行处理的技术。机器自动生成图像描述文本是当前人工智能研究热点之一,它搭建起计算机视觉和自然语言处理之间的桥梁,是通向机器智能常应用场景的至关重要一步。图像描述生成任务借助计算机视觉技术自动完成图像目标识别,再利用机器翻译模型将解释的内容表达成一段自然语言文本。图像描述生成任务
论文部分内容阅读
随着互联网和计算机智能的飞速发展,图像数据和视频数据急剧增加。为了更好满足人们对图像信息和视频信息的需求,急需对图像和视频进行处理的技术。机器自动生成图像描述文本是当前人工智能研究热点之一,它搭建起计算机视觉和自然语言处理之间的桥梁,是通向机器智能常应用场景的至关重要一步。图像描述生成任务借助计算机视觉技术自动完成图像目标识别,再利用机器翻译模型将解释的内容表达成一段自然语言文本。图像描述生成任务虽然面临诸多挑战,但应用前景广泛,具有重要的应用价值和现实意义。本文的主要内容如下:(1)首先介绍本论文研究方向的研究背景和研究意义,接着介绍了图像描述生成的国外研究现状。接着介绍现有图像描述生成模型的优缺点,深度学习中的注意力机制、多尺度图像和图像描述生成的相关理论与关键技术。(2)当前深度学习模型对图像特征的提取多数采用卷积神经网络预训练的模型最后几层中的一层作为全局特征,在图像信息提取过程中提取图像尺度单一,忽视了不同尺度下图像特征的提取,同样缺少对图像局部信息的提取,造成文字对图片内容描述的不够准确、语义较模糊的问题。针对此问题,本文基于在卷积神经网络中,不同特征层具有不同的尺度。利用卷积神经网络中的高层特征和底层特征相融合,形成多尺度特征。通过提取卷积层不同层的特征,然后进行特征融合,以充分提取图像信息,提高图像描述生成的准确率。(3)通过注意力机制对编码器中得到的不同尺度的图像特征进行选取,融合,再经由解码器生成图像描述,提高模型对图像的语义诠释。通过注意力图生成模块,生成不同层的注意力图,将注意力图与各层的特征相乘,得到注意力特征,将得到的注意力特征进行多尺度融合,以提高对各层卷积特征中的显著性信息提取。基于注意力的特征融合可以更加有效提取图像特征和减少数据量,提高图像描述生成的准确率。本文方法在Microsoft COCO数据集上进行训练,测试和评估,在BLEU,ROUGE-1和CIDEr等评价指标上,比较了现有基准模型的结果。实验结果表明,本文所提出的模型能够生成更加准确,更完整,更有意义的图像描述语句。
其他文献
轴承是最广泛应用的零件。在轴承制造工艺中球化退火是必不可少的一道工序,便于材料后续的切削加工。本文针对GCr15轴承材料的套圈,提出一种新型温成形技术,以实现短时间成形和球化过程。并针对这种新型温成形技术的可行性、球化机理、调控方法及工业上的具体实践开展系统研究。通过多道次变形和单道次变形及以珠光体离异共析相变和以共析相变为基础的温压缩实验,对温轧环过程形变相变协同控制实现组织球化的可行性进行分析
氯代硝基苯和氯代苯酚是废水中常见的氯代芳香族污染物,是重要的化学原料和中间体,广泛应用于医药、农药、石油、化工、印刷等行业。这些污染物具有毒性,自身稳定且难易降解,对生态环境造成了巨大影响。如何有效去除氯代芳香族化合物成为了当前的研究热点,因此,本文采用电化学还原法研究氯硝基苯和氯苯酚的还原去除机理,以期为电化学技术应用于上述两类物质的污染治理提供重要理论依据和技术支撑。本研究的主要内容及结论如下
随着中国近些年高速发展,人民群众的维权意识有了显著提升,由于群众法律意识不完备、争取诉求方式不合理等因素,因此各类群体性事件时常发生,甚至随着矛盾激化上升至恶性暴力冲突事件。据研究表明,群体事件引发原因及参与人员呈现多样化的特征,并且事件规模也不尽一致。但事件起因归根到底是由于弱势群体认为自身利益受到侵害而采取反抗措施,资源的合理分配是解决矛盾的根本之策。其中暴力冲突事件数逐年增加,越来越多的事件
掺Tm3+光纤激光器输出2μm波段的激光,位于大气光传输的低损耗窗口,因此在遥感和光通信领域中掺Tm3+光纤激光器也越来越受到重视,是激光测距机、相干多普勒测风雷达和激光雷
黑莓是一种新兴的第三代特色浆果,其营养丰富,富含花色苷、多酚化合物、维生素及多种矿物质,具有抗氧化、降血脂和抗心律失常等保健功效。黑莓酒作为黑莓汁酵母发酵的产物,最
新疆伊犁地区是我国主要的马匹产地之一,马肉的肉质具有柔软、细腻、香甜、瘦肉多、脂肪低的特点。新疆伊犁地区的马肉加工主要以熏制加工为主,但加工工艺较为简单,手法粗放,
在洁净室、手术室等对环境参数要求较高的场合,人体运动是影响流场(包括热气流及污染物)变化的一个重要因素,对患者手术部位的康复乃至降低手术并发症有直接而重要的影响。本
随着我国交通基础建设的蓬勃发展,高速公路隧道建设在交通建设中的比例越来越大,随着我国修建的隧道越来越多,则在修建过程中遇到的不良地质灾害问题也日益增多,从而也滋生了一系列的工程问题,列如隧道塌方。本文主要以雅安至康定高速公路卢康段小马厂隧道的反复塌方工程事故作为研究背景,对隧道塌方处治工程的关键技术及参数优化开展了研究,主要研究内容和所得成果如下:(1)采用数值模拟方法,分别对塌方段采取三种开挖方
背景结肠癌是世界范围内高发的消化系统恶性肿瘤,在男女性中均高发,严重影响人群的健康。虽然传统的手术和放化疗可以一定程度上延长患者的生存期,但是晚期结肠癌患者,特别是伴有转移的患者,死亡率还是很高。目前对于癌症治疗,提出了更有针对性的新方案-癌症靶向治疗,与传统的化疗相比较,靶向治疗能更有效更精准的作用于癌症细胞,降低药物引起的不良反应,寻找新的治疗靶点成为目前研究的主要方向。文献报道显示,酪蛋白激
离散域范围内的路径规划是在复杂的路径拓扑网络定位起始点和目标点,而后运用路径搜索方法进行路径寻优规划的过程。伴随拓扑网络的节点趋于指数增长,传统基于图形学的路径优化算法已逐渐展现疲态,难以适应复杂多变的路径拓扑网络。因而在路径寻优方向的研究是不可或缺的。本文将以网络拓扑构建为切入点,获取网络拓扑路径实时状态,动态计算权值信息,据此完成整个路径寻优过程。具体地,本文的主要研究方向如下:(1)研究网络