【摘 要】
:
图像描述是连接计算机视觉和自然语言处理两个领域的跨学科研究任务,已成为当下研究的热点问题。该任务旨在生成概括图像主要内容的描述语句,主要包含图像中存在的目标、属性、场景及它们之间的关系。鉴于编码-解码框架在机器翻译的研究工作中取得了良好的效果,研究人员将其应用到图像描述任务中,获得了显著的进展。在该框架下,如何有效地解释视觉表征和学习语言模型任务已成为图像描述算法的关键。在已有研究中,一方面常将这
论文部分内容阅读
图像描述是连接计算机视觉和自然语言处理两个领域的跨学科研究任务,已成为当下研究的热点问题。该任务旨在生成概括图像主要内容的描述语句,主要包含图像中存在的目标、属性、场景及它们之间的关系。鉴于编码-解码框架在机器翻译的研究工作中取得了良好的效果,研究人员将其应用到图像描述任务中,获得了显著的进展。在该框架下,如何有效地解释视觉表征和学习语言模型任务已成为图像描述算法的关键。在已有研究中,一方面常将这两个任务同时进行,另一方面它们也忽略了图像显著性的重要性。本文结合长短时记忆网络和视觉注意机制,研究高效的图像描述算法,主要贡献如下:(1)提出了基于自适应视觉注意机制的双长短时记忆网络图像描述算法。该算法在编码-解码框架中,利用两个长短时记忆网络代替单个长短时记忆网络构成解码器,其具有两个子模块:视觉注意模块和语言生成模块。视觉注意模块为第一个长短时记忆网络,用来处理视觉表征以获得更细粒的视觉信息和视觉哨兵;语言生成模块为第二个长短时记忆网络,其输入是视觉注意模块的输出,用于生成描述语句。通过与现有的经典图像描述算法对比,验证了该算法的有效性。(2)在本文已有工作的基础上,考虑图像显著性的作用,进一步提出了融合显著先验信息的图像描述算法。该算法将原始目标图像的显著图作为弱监督信息,用来自动生成描述语句。这一算法在不忽略非显著视觉信息前提下,通过融合原始目标图像及显著图,获取反映描述语句中主体所对应的视觉区域的显著先验图,以增强模型对显著目标区域的关注。
其他文献
CO2是腹腔镜手术最常用的气腹介质,随着对腹腔镜基础研究的深入,CO2所致的腹内高压以及吸收后所致的机体缺氧,酸碱平衡改变,将导致胃肠道微循环障碍,神经、激素紊乱,继而造成
连续性肾脏替代治疗(CRRT)在重症医学科中的应用日益广泛,但CRRT在实际应用中仍存在较大差异,不合理、不规范的应用不仅会导致严重的并发症和医疗资源的浪费,甚至会威胁患者
文章针对岩石边坡稳定性的问题,介绍了几种常见的边坡破坏形式。
目的:对中医骨科康复治疗老年骨性关节炎的临床效果进行观察,探究其临床推广应用的价值。方法:选择我院于2012年6月~2014年6月期间收治的老年骨性关节炎患者80例,随机分为两
随着频谱资源的日益匮乏,认知无线电(Cognitive Radio,CR)的概念便逐渐进入人们的视野。认知无线电具有感知“频谱空洞”(已经分配给某用户而其在某一时间段却未使用的频谱资
通过对钢球在球磨机筒体内的受力分析,推导出球磨机的理论工作转速,由此揭示目前的球磨机处于低效率的原因。同时,根据球磨机衬板与钢球之间的磨擦系数为0.095~0.30的实际情况,指出了提高球
为了探明竹横锥大象Cyrtotrachelus buqueti Guerin-Meneville是否存在两性间的引诱作用,以及寄主植物慈竹Neosinocalamus affinis笋对两性行为的影响,采用Y型嗅觉仪测定了竹
目的:探讨针灸联合中药热敷在腰肌劳损中的临床治疗效果。方法:对来我科室诊治的80例患者的就诊资料进行分析,将其随机分为两组。对照组采用常规方法治疗,实验组采用针灸联合
文章通过对舞蹈解剖学的系统阐述,说明人体各个器官、系统的形态、结构特征的相互关系,以及舞蹈训练对人体形态结构产生的影响,初步分析了运用解剖学的基础知识分析舞蹈动作
为了更好地利用性信息素类似物与植物挥发物对绿盲蝽Lygus lucorum进行监测和生物防治,本研究采用电生理学方法测试了绿盲蝽成虫对9种性信息素类似物和12种植物挥发性物质的