【摘 要】
:
文本生成序列图像是一项融合计算机视觉和自然语言处理两个方向的跨模态任务,该任务通过输入的文本描述,生成符合对应语义信息的序列图像。由于文本描述能够生成多个不同的图像,因此生成语义一致且分辨率较高的图像是一个极具挑战性的任务。生成对抗网络由于自身独特的对抗机制,被广泛应用于解决文本生成图像的任务。然而生成对抗网络的模型训练难以收敛,文本生成序列图像仍然面临着生成图像的对象布局混乱、上下文信息难以提取
论文部分内容阅读
文本生成序列图像是一项融合计算机视觉和自然语言处理两个方向的跨模态任务,该任务通过输入的文本描述,生成符合对应语义信息的序列图像。由于文本描述能够生成多个不同的图像,因此生成语义一致且分辨率较高的图像是一个极具挑战性的任务。生成对抗网络由于自身独特的对抗机制,被广泛应用于解决文本生成图像的任务。然而生成对抗网络的模型训练难以收敛,文本生成序列图像仍然面临着生成图像的对象布局混乱、上下文信息难以提取以及文本图像不匹配等问题。基于以上存在问题,主要研究内容如下:(1)提出了一种基于场景图的文本生成序列图像方法。通过生成对抗网络进行文本生成序列图像的任务可以生成分辨率较高的图像,然而当输入的文本涉及多个对象和关系时,生成图像的对象布局容易产生混乱,生成的对象属性与场景位置信息不明确。针对该问题,本文在Story GAN的基础上提出了一种基于场景图的文本生成序列图像方法。首先,引入图卷积将文本信息转换为多个场景图,由节点和边关系预测图像的边界框和分割掩膜,并生成对应序列图像;然后,通过上下文编码器对文本编码,生成序列图像;最后,将两个生成网络生成的图像信息进行融合,生成符合对象关系的序列图像。实验结果表明,在CLEVR-SV数据集上,该方法的SSIM比Ge Ne Va提高了1.7%,FID降低了5.08%,R-precision提高了2.49%。在Co Draw-SV数据集上,该方法的准确率比Ge Ne Va提高了3.44%,Human rank降低了2.77%。(2)提出了一种基于对比损失的文本生成序列图像方法。目前的文本生成序列图像方法在处理单句文本描述时生成的图像分辨率和质量较好,然而当输入信息涉及多句文本时,生成的图像序列容易出现文本的上下文信息难以提取、生成的序列图像间连贯性较差的问题。针对该问题,本文提出了一种基于对比损失的文本生成序列图像方法。首先,通过段落编码器和时间卷积网络对文本信息进行整合处理,使各个文本间信息随着时间线相互联系;然后,将信息转化为多个场景图,根据场景图生成场景布局,进而生成序列图像;最后,利用对比损失训练网络模型。实验结果表明,在CLEVR-SV数据集上,该方法的IS比Attn GAN提高了3.93%,FID降低了3.35%。在Co Draw-SV数据集上,该方法的IS比Attn GAN提高了2.08%,Human rank降低了1.83%。(3)提出了一种基于语义重构约束的文本生成序列图像方法。生成对抗网络模型存在文本与图像信息不匹配、语义一致性和准确性较低的问题。针对该问题,本文提出了一种基于语义重构约束的文本生成序列图像方法。首先,通过文本注意力编码器,利用全局注意力,增强文本语义特征的提取;然后,将信息输入到时间卷积网络和场景图网络中,生成场景布局;接着,引入空间语义感知卷积网络,将上一张生成的图像特征与文本信息进一步融合,与场景布局一同输入到级联细化网络,生成更符合语义描述的序列图像;最后,根据序列图像进行语义重构,由再次生成的文本描述与原始文本进行损失计算,优化训练模型。实验结果表明,在CLEVRSV数据集上,该方法的IS比Obj GAN提高了2.91%,FID降低了1.18%。在Co DrawSV数据集上,该方法的IS比Obj GAN提高了1.68%,FID降低了1.09%。通过上述提出的三种文本生成图像方法,提高了含有多个对象的文本生成序列图像的准确性,增强了上下文信息的提取能力,提升了生成序列图像的准确性和语义信息之间的一致性,为之后的文本生成序列图像研究提供了一些参考。
其他文献
多智能体系统近年来被广泛运用于各类行业,包括民用方面和军事方面,其分布式控制也是越发受到关注。其中,作为多智能体系统分布式控制领域的基本问题之一,一致性问题在该领域也扮演了一个不可或缺的角色。本文主要研究在某些系统状态不可测的前提条件下的几类多智能体系统,通过为这些智能体设计观测器,用观测值代替真实值来设计一致性协议,实现各智能体之间的状态一致性。本文的工作主要分为以下三个部分。1.针对同时含有未
人口数据能反映一个国家或地区的人口在地理空间中的分布,也是反映社会经济发展和城市建设状况的重要数据源。传统的人口数据通常以人口普查和抽样调查的方式统计获得,存在时效性差、难以与其他地理空间数据融合等局限。人口数据空间化方法是实现人口空间分布模拟的有效方法,能得到的更高时间和空间分辨率的人口数据。然而此类方法在模拟人口空间分布时采用“自上而下”的建模思路,模拟得到的结果难以反映“自下而上”微观个体行
命名实体识别是自然语言处理领域的核心任务,是机器问答、信息检索等任务的基础性工作;其最核心的目标是从非结构文本中寻找、识别和分类相关实体。当前命名实体识别在英文上已经取得了巨大的成功,但在中文领域上的研究进展远落后于英文;尤其是面向一些专业领域,如电子医疗病历实体识别等,中文命名实体识别的研究还有待进一步提高。在通用数据集上,中文相较于英文有着更为复杂的语法结构且字词之间无空格来分割,因此存在边界
目的:观察温经汤配合腕踝针治疗寒凝血瘀型痛经的疗效。方法:选取本院就诊的寒凝血瘀型痛经患者60例,随机分为治疗组及对照组各30例。治疗组用温经汤配合腕踝针治疗,对照组用西药治疗。结果:治疗组痛经缓解优于对照组(P<0.05),且用药后痛经症状积分低于对照组(P<0.05)。治疗组总有效率高于对照组(P<0.05)。结论:温经汤配合腕踝针治疗寒凝血瘀型痛经能缓解临床症状,且维持疗效时间更持久。
姿势迁移的图像生成技术旨在将给定的源人物姿势转换为设定的目标姿势,同时,保持生成人物图像的外观及服装纹理与源人物的尽可能一致。人物姿势的表示是姿势迁移研究中的核心问题。目前使用较为广泛的是基于人体关键点的二维姿势表示,该方式的优点在于获取方便,可通过已经成熟的姿势估计算法直接通过对源人物图像计算得到准确的姿势关键点。其他方法如基于3D表示的人物姿势由于获取困难,使其应用场景十分受限。然而,使用二维
时间序列是按时间刻度有序并且互相关联的数据序列,数据特征随时间具有一定的变化规律。时间序列预测已经在商业、环境、医学、工业等各个领域得到了广泛的关注。实现准确的预测对节约资源、提高效率、减少成本、优化配置等方面都具有重要的作用。时间序列预测方法是根据历史的时间序列数据、相关特征等推算未来观测值的手段。目前时间序列数据预测的方法以深度学习模型为主,虽然取得了很多研究成果,但是在时间序列数据的预处理、
是自然语言处理领域中一个重要的任务。随着深度学习技术的发展,相比于短文本摘要技术,长文本摘要发展缓慢。一方面缺乏可用的大规模数据集;另一方面,当文本序列过长时会产生长距离依赖问题。针对上述问题,本文基于深度神经网络技术,开展长文本摘要建模方法研究。本文从以下四个方面对长文本自动摘要任务展开研究:(1)针对当前中文长文本数据集缺乏的问题,本文采用中文专利数据构建了一个大型的专利数据集。该数据集在关键
随着新一代信息技术、大数据理论与实践的高速发展,智慧城市的范围不断扩大、范畴不断延伸、智能化的水平不断提高。智慧城市建设中地址的数字化、精细化、智能化管理成为各种政务管理、金融机构、市场应用重要基础数据,也是实现应用目标、提升应用能力的必要数据。但是,由于我国地址规划建设起步相对较晚,传统建筑地址采集方式落后且缺少统一的规范策略,造成各行各业既有的建筑地址信息数据难以准确匹配,难以给上层的地理信息
长期以来,建筑工程中安全事故频繁发生所导致的人员伤亡和财产损失,受到国家和社会的广泛关注。为了防止类似事故的发生,在每次事故发生后会形成事故调查报告,通过从历史事故中总结经验教训,从而制定安全管理策略和防范措施用于预防未来的风险发生。而以往对事故的分析研究依赖于专家利用专业知识进行人工分析,这使得分析结果很容易受到人的主观影响。同时,随着事故报告数据量的不断增加,人工分析耗时耗力,已经无法满足需求
目的 通过对安徽省某县级医院胆囊炎单病种付费患者住院费用的灰色关联分析,为该院有效缩短住院时间、适应支付方式改革提供对策建议。方法 收集安徽省某县级医院2016年至2019年单病种付费住院信息,分析胆囊炎患者住院数据,对住院费用结构、关联系数、关联度等进行分析。结果 该院胆囊炎患者手术麻醉费、药品费占比及关联系数较大,与次均住院费用关联度也最大,护理费构成比有小幅度上升。结论 手术麻醉费与药品费对