【摘 要】
:
图像字幕生成是计算机视觉的基础任务之一,其目的是以自然语言的形式对图像中的内容进行准确的描述。该任务具有广泛的应用场景,如多模态图像/文本检索,复杂场景理解,甚至可以帮助视障人士进行图文阅读。随着深度模型表达能力的提高和公开数据集的发展,现有的方法取得了一定的成果,但仍存在着明显的缺陷:(1)无法显式地对字幕预测进行控制,即无法选择使用“详细”还是“简洁”的方式描述图像内容,难以满足实际应用的不同
论文部分内容阅读
图像字幕生成是计算机视觉的基础任务之一,其目的是以自然语言的形式对图像中的内容进行准确的描述。该任务具有广泛的应用场景,如多模态图像/文本检索,复杂场景理解,甚至可以帮助视障人士进行图文阅读。随着深度模型表达能力的提高和公开数据集的发展,现有的方法取得了一定的成果,但仍存在着明显的缺陷:(1)无法显式地对字幕预测进行控制,即无法选择使用“详细”还是“简洁”的方式描述图像内容,难以满足实际应用的不同需求。(2)现有算法大多采用自回归的解码方式,即文本的生成严格遵循“从左向右、逐字生成”。这种解码方式的计算复杂度会随着预测的图像字幕长度的增加而线性增长,故对生成长字幕不友好。首先,针对上述问题(1),本文提出具有长度可控性的图像字幕生成算法。通过使用“长度等级”信息来赋予模型改变图像字幕长度的能力,同时提高生成字幕的多样性。本文进一步设计自适应图像字幕长度选择算法,在不冗余的前提下表达图像中的重要信息。实验表明,该算法能有效生成高质量、长度可控且多样性高的图像字幕,并提升了模型在MS COCO数据集上的性能表现。其次,针对上述问题(2),本文提出非自回归式图像字幕生成算法。该算法基于迭代修正的思想,在预先设定好的迭代次数内完成图像字幕的解码,将计算复杂度优化为与图像字幕长度无关的常数级。此外,本文通过序列级知识蒸馏,有效提升非自回归式图像字幕生成质量。实验表明,本文提出的非自回归模型比自回归模型有更好的性能表现和更准确的控制能力,能够大幅提升解码的效率并产生更多样化的图像字幕。
其他文献
局部进展期直肠癌的标准治疗方式为新辅助放化疗结合手术切除。但是新辅助放化疗可能会产生毒副作用。病理活检是临床诊疗的“金标准”,包含大量的肿瘤微环境信息,而医生无法直接从临床诊疗中得到病人新辅助放化疗的疗效。因此,本文结合深度学习方法利用活检数字病理切片预测局部进展期直肠癌新辅助放化疗疗效,辅助医生临床决策。由于数字病理切片的标注难以获得以及大尺寸的问题,本文基于深度卷积网络和数字病理切片分割的小块
近年来,由于定位服务的迅猛发展,室内定位引起了人们的广泛关注。其中,可见光定位(Visible Light Positioning,VLP)是使用发光二极管(Light-emitting Diode,LED)光源作为信号源进行定位的技术,具有无电磁干扰、绿色环保、兼顾照明等优点,在室内定位领域具有很高的研究价值和应用前景。本文在广泛调研可见光通信定位算法的基础上,以VLP中两种常见接收端——光电传
地铁作为一种城市元素在城市交通体系中起着至关重要的作用。广州作为国家中心城市,广州地铁不仅要实现公共交通的基础功能,更应体现东方文化精髓、广州地域文化特色。地铁车站文化特色建筑空间设计研究是城市形象确立、人文价值传承、公众精神追求的迫切需求。因此,研究广州地铁地域文化特色设计建筑空间是非常有实际意义和价值的。本人对广州地铁已开通的各线路进行实地调研,经过对比分析提出广州地铁建筑空间在文化特色设计中
葡萄果实生物活性物质和颜色是衡量其品质和成熟度的重要指标,花青素等酚类物质是其主要呈色物质和生物活性物质,温度和光照等环境因素对花青素积累具有重要影响。本研究以乌鲁木齐和吐鲁番两个葡萄种植区的两个葡萄主栽品种‘红地球’(RG)和‘新郁’(XY)为研究对象,对比不同环境下葡萄果实发育过程(S1、S2、S3、S4和S5五个时期)花青素等植物代谢物的积累,评价环境因子对葡萄果实品质发育的影响规律,探究光
随着5G独立组网技术标准在2018年的冻结与发布,移动通信正式迈入5G时代。2019年开始,中国三大运营商建设起了全球最大规模的5G网络,引领了全球5G建设投资浪潮。然而5G高频段、大带宽等关键技术的应用,决定了5G无线网络设备能耗和基站数量都较4G网络大幅提升,网络运营成本不断增加,在5G商业化的初期,也带来了“高能耗、低收益”的巨大挑战。因此,研究可随用户发展自适应的基站级别的节能策略,对促进
情感不仅反映人当下的生理心理状态,而且在人类的认知、沟通和决策能力扮演了重要的角色,是构成人类社会活动的必备条件。情感识别可以利用计算机去自动识别、理解和反映人类的情感,从而辅助于现实生活中的方方面面,例如人机交互、医疗保健、教育、游戏开发、驾驶安全等。考虑到脑电信号能为情感识别提供强大的客观性和较高的分类精度,以及脑机接口的快速发展,脑电情感识别研究是时代赋予我们的重大课题。经调研,发现现有的脑
泡沫金属是一种兼具结构性和功能性的新型轻质材料,具有重要应用价值。随机无规则多胞结构决定了泡沫金属在各种加载下的变形呈现高度非均匀性,材料的宏观力学行为更加复杂。准确测量泡沫金属材料内部变形场是开展深入力学研究的重要基础。数字体图像相关法(Digital volume correlation,DVC)是一类新兴的非接触式测量方法,借助CT扫描等三维成像技术,能通过图像配准实现材料内部三维变形场的有
图像超分辨率算法的目的是从一张低质量的图像重建出一张高质量的图像,造成图像质量下降的原因包括分辨率降低、镜头噪声、运动模糊和图像压缩等。因此,图像超分辨率是一个没有唯一解的未定问题,对于一张给定的低质量图像,有任意张高质量图像与其对应。近年来,得益于卷积神经网络的发展,超分辨率算法在重建图像的精确度和感知质量等方面取得了极佳的重建效果。但是,由于在实际应用场景中,图像的模糊方式更加复杂,传统超分辨
随着商用便携式电子设备的发展,体积小,重量轻和使用时间长已成为消费者的迫切要求。单电感多输出(SIMO,Single Inductor Multiple Output)直流变换器利用单个电感实现多路稳压输出,减小了PCB面积,降低生产成本,引起商业界与学术界广泛的关注与研究。本论文总结了SIMO变换器的设计目标,包括减少交叉串扰,提高输出功率,提高工作效率,降低输出纹波等。与传统单输出结构相比,单
自2007年Whitesides团队率先提出纸基微流控芯片的概念后,利用纸设计微流控检测芯片逐渐成为了研究的热点。纸基微流控芯片技术是监测食品安全的一种新模式,同时也是一种正在发展中的交叉学科技术,对改善食品安全现状有着积极的意义。纸张的性能和结构对检测反应过程和结果呈现具有重要的影响,然而目前并未得到系统化研究。因此,本论文通过对纸张性能的研究筛选出适宜的检测基底,从而提高纸基芯片的检测性能,为