基于Vision Transformer的序列图像故事生成研究

来源 :广西大学 | 被引量 : 0次 | 上传用户:xiaoxiaodeai1002
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
多模态生成是跨越多种模态进行表示、对齐、推理、整合和转化等操作的生成任务,是人工智能领域中极具科研价值与应用价值的研究方向,近年来受到了计算机视觉和自然语言处理等多个社区的关注。作为一个典型的多模态生成任务,视觉叙事非常具有挑战性且尚未被完全开发,其定义是给定一组有序的图像,根据图像信息生成与图像内容相关、语句通顺且具有逻辑一致性的故事文本。在前人的工作中,一个通用的范式是使用预训练卷积神经网络作为图像特征表示提取器,将提取的图像特征输入循环神经网络中进行解码生成。这类范式存在着不足之处:首先,以卷积神经网络提取图像特征表示的方法可能会限制跨领域图像语义信息的发掘,因为卷积神经网络被用于提取特征时往往在不同领域的数据集上进行,由于没有在目标领域中进行微调,提取到的图像特征可能缺少相关领域的高级语义信息。其次,循环神经网络采用决定信息去留的门机制,不适用于图像信息和文本信息的融合。针对以上传统范式的不足,本文提出基于纯Transformer的序列图像故事生成范式的方法。为了挖掘图像深层语义信息,本文使用Vision Transformer替代卷积神经网络进行图像特征提取,该模块能够直接参与到整个模型的训练中,通过不断调整自身权重达到微调目的,有助于获取更有效的图像特征表示。同时本文分别提出基于序列到序列的Vision Transformer(SSVT)模型和基于条件变分自动编码器的Vision Transformer(VAVT)模型。值得一提的是,VAVT模型以图像表示作为先验网络输入,以图像文本联合表示作为后验网络输入,通过KL散度拉近两个网络输出分布来显式融合两个模态。本文通过对比实验、消融实验、实例分析和可视化分析验证本文所提出模型的有效性。这也可以为Transformer在多模态生成任务提供参考和借鉴。
其他文献
自认是一项重要的诉讼制度,自认撤销规则旨在纠正瑕疵自认行为。我国自认撤销规则出台较晚,对于自认撤销规则的问题研究还比较薄弱。自认撤销的相关规则看似完善,实则并没有对具体情形进行区分。如何解决我国自认撤销规则存在的问题,完善自认撤销的程序规制是当前的重要任务。以讨论自认撤销规则的价值追求及构成要件为起点。首先,自认不能随意撤销,否则会带来司法程序失衡的严重后果。然而,少部分情况下,当事人的自认并不是
学位
由于化石能源的过度消耗,环境污染和气候变化问题日益严重。这使得人们对推进能源转型、发展可再生能源和提高能源利用率愈发重视。社区微电网能够有效整合当地的可再生能源,为社区用户提供清洁、高效和经济的能源服务,在能源转型中发挥着至关重要的作用。为此,为提高社区微电网的可靠性和经济性,本文分别从能源管理策略、储能容量配置和电动汽车有序充放电管理三个方面来开展相应的研究,主要研究内容如下:首先,针对目前社区
学位
中国城市化快速发展,引发城市热环境问题,其中城市热岛现象尤为严重。透水混凝土路面作为海绵城市建设的重要组成部分,能有效缓解城市热岛效应。然而传统透水混凝土透水性较大,雨水快速下渗导致无法有效截留水分进行蒸发,导致蒸发降温能力严重不足。因此,亟需深入探究透水混凝土蒸发降温性能优化问题,鉴于此,本文添加高吸水性(生物炭、沸石粉)掺合料取代部分水泥制备透水混凝土,论文从三个部分开展对透水混凝土蒸发降温性
学位
回复性是动力系统研究中的一个十分重要内容,目前已取得诸多进展,并广泛应用于其它领域。本文讨论一般可数离散半群的强迫回复性,即某点沿着可数半群作用一个子集的回复属性。具体安排如下:第一章,我们简要回顾动力系统回复性相关的历史背景与研究现状,并概述本文的研究内容和主要结果。第二章,我们回顾拓扑动力系统的基本概念及主要结论。第三章,我们引入半群作用的强迫回复性,并且得到强迫回复性的一个刻画:一个半群的子
学位
图谱理论是代数图论的一个非常活跃的研究领域,是处理离散数学问题的有力工具,在量子化学、统计物理学、计算机科学、通信网络等领域中有着广泛的应用.它主要利用矩阵论和图论的理论和方法,通过图的矩阵,建立图的谱与图的拓扑性质之间的联系.在图谱理论的研究中,关于图的谱的极值问题和排序问题是两个非常重要的研究课题.本文研究图的扩展邻接矩阵的最大特征值(又称为图的扩展邻接谱半径).图G的扩展邻接矩阵定义为Aex
学位
Hfq(Host factor for Qβ)蛋白作为细菌的全局转录后调控因子,在细菌的运动、趋化、致病和群体感应等中发挥着重要的调控作用。本实验室之前的研究发现,编码Hfq的基因(hfq)缺失导致十字花科黑腐病菌(Xanthomonas campestris pv.campestris,Xcc)的涌动能力几乎丧失,但机制不明。转录组数据显示,4个推测与运动相关的基因(fim T、pilV、pil
学位
网络系统大小的增大会增加系统中网络节点发生故障的风险,所以评估网络系统的容错能力和对故障节点进行修复或更换是必要的。评估网络系统容错能力的指标有经典连通度、额外连通度、连通分支故障诊断度、故障块连通度等。要对故障节点进行修复或更换就必须要先找出网络系统中的故障节点,用于故障诊断的策略有t-故障诊断策略、t/s-故障诊断策略、t/t-故障诊断策略和t/k-故障诊断策略等。此外,选择特定的诊断模型来识
学位
沉香是沉香属木质部组织及其分泌物共同组成的天然混合物质,是一种“药香”两用材,经济价值高,用途广,可用于制药、香熏、香水、日化产品等。沉香的形成受外界胁迫,次生代谢物的合成及积累,为一个偶然、长期的过程,致使野生沉香数量稀少,难以满足沉香市场的需求。目前,已有通过人工方法诱导沉香形成,但效果不佳,沉香产量低,质量差,且存在被重金属污染的风险。生物结香法被誉为最有前景的结香技术。相关研究表明,自然感
学位
直接甲醇燃料电池(DMFC)因其配置简单、能源可再生、便于储存和能量密度高等优势而逐渐成为电力电子领域的替代电源之一。然而,适用于甲醇催化氧化反应(MOR)的阳极电催化剂的选择是有限的,因为选择过程中我们必须要考虑增强甲醇氧化活性和减少CO中毒的阳极电催化剂,以进一步改善DMFC性能。铂基催化剂被证明是甲醇解离吸附最活跃的金属催化剂。然而,低温下甲醇电氧化过程中产生的CO很容易使铂中毒。此外,铂金
学位
网络技术在21世纪进入飞速发展的快车道,出现了各种各样的网络应用,如云计算、5G网络和物联网等技术。这些技术使我们的生活方式变得更加便利,然而随着网络环境日趋复杂,保障这些网络的安全性也成为一个重要问题。数字签名作为一项关键的网络安全技术,为保护信息安全提供了重要支撑。在传统的基于公钥基础设施的数字签名方案中,一般需要使用单独的证书验证用户身份与公钥之间联系的真实性。在这类系统中,由于证书管理比较
学位