【摘 要】
:
通过生成对抗网络进行段落生成序列图像的任务已经可以生成质量较高的图像.然而当输入的文本涉及多个对象和关系时,文本序列的上下文信息难以提取,生成图像的对象布局容易产生混乱,生成的对象细节不足.针对该问题,文中在Sto-ryGAN的基础上,提出了一种基于场景图的段落生成序列图像方法.首先,通过图卷积将段落转换为多个场景图,每个场景图包含对应文本的对象和关系信息;然后,预测对象的边界框和分割掩膜来计算生成场景布局;最后,根据场景布局和上下文信息生成更符合对象及其关系的序列图像.在CLEVR-SV和CoDraw-
【机 构】
:
苏州科技大学电子与信息工程学院 江苏 苏州215009;苏州科技大学苏州市大数据与信息服务重点实验室 江苏 苏州215009;苏州经贸职业技术学院 江苏 苏州215009;苏州科技大学电子与信息工程学
论文部分内容阅读
通过生成对抗网络进行段落生成序列图像的任务已经可以生成质量较高的图像.然而当输入的文本涉及多个对象和关系时,文本序列的上下文信息难以提取,生成图像的对象布局容易产生混乱,生成的对象细节不足.针对该问题,文中在Sto-ryGAN的基础上,提出了一种基于场景图的段落生成序列图像方法.首先,通过图卷积将段落转换为多个场景图,每个场景图包含对应文本的对象和关系信息;然后,预测对象的边界框和分割掩膜来计算生成场景布局;最后,根据场景布局和上下文信息生成更符合对象及其关系的序列图像.在CLEVR-SV和CoDraw-SV数据集上进行测试,该方法可以生成包含多个对象及其关系的64×64像素的序列图像.实验结果表明,在CLEVR-SV数据集上,所提方法的SSIM和FID比StoryGAN分别提升了1.34%和9.49%;在CoDraw-SV数据集上,所提方法的ACC比StoryGAN提高了7.40%.所提方法提高了生成场景的布局合理性,不仅可以生成包含多个对象和关系的图像序列,而且生成的图像质量更高,细节更清晰.
其他文献
神经机器翻译模型的训练效果在很大程度上取决于平行语料库的规模和质量.除了一些常见语言外,汉语与小语种间高质量平行语料库的建设一直处于滞后状态.现有小语种平行语料库多采用自动句子对齐技术利用网络资源构建而成,在文本质量和领域等方面有诸多局限性.采用人工翻译的方式可以构建高质量平行语料库,但是缺乏相关经验和方法.文中从机器翻译实践者和研究者角度出发,介绍了经济高效的人工构建小语种平行语料库的工作,包括其总体目标、实施过程、流程细节和最后结果.在构建过程中尝试并积累了各种经验,形成了小语种到汉语平行语料库构建方
现实世界中的信息网络大多为异质信息网络,旨在表示低维空间中节点数据的网络表示方法已普遍用于分析异质信息网络,从而有效融合异质网络中丰富的语义信息和结构信息.但是现有的异质网络表示方法通常采用负采样从网络中随机选择节点,并且对节点和边的异质性学习能力不足.受生成式对抗网络和元路径的启发,文中提出了一种新型的异质网络表示方法.首先对采样方法使用元路径的策略进行改进,根据元路径不同的权重取样,使样本更好地体现节点之间存在的直接和间接关系,增强样本的语义关联.然后在生成对抗的博弈过程中使模型充分考虑节点和边的异质
推荐系统如今已被广泛应用于生活中,大大便利了人们的生活.传统的推荐方法主要是针对用户与物品的交互情况进行分析,分析用户与物品的历史记录,得到的只是用户过去对于物品的喜好程度.序列化推荐系统通过分析用户近一段时间与物品交互的序列,来考虑用户前后行为的关联性,能够获得用户短期内对物品的喜好程度.然而,序列化方法强调的是用户与物品在短期的联系,忽视了物品属性之间存在的关系.针对以上问题,文中提出了融合时间特性和用户偏好的卷积序列化推荐(Convolutional Embedding Recommendation
机器翻译是利用计算机将一种语言转换成另一种语言的过程,凭借着对语义的深度理解能力,神经机器翻译已经成为目前主流的机器翻译方法,在众多拥有大规模对齐语料的翻译任务上取得了令人瞩目的成就,然而对于一些低资源语言的翻译任务效果仍不理想.蒙汉机器翻译是目前国内主要的低资源机器翻译研究之一,蒙汉两种语言的翻译并不简单地是两种语言的相互转换,更是两个民族之间的交流,因此受到国内外的广泛关注.文中主要对蒙汉神经机器翻译的发展历程和研究现状进行阐述,随后选取了近年来蒙汉神经机器翻译研究的前沿方法,包括基于无监督学习和半监
针对面向电子病历的疾病辅助诊断问题,文中将词向量和文本判别方法应用到电子病历的文本语义解析任务中.具体地,采用预训练语言模型作为字符的语义表征,从而对文本特征进行准确表达,在卷积神经网络中提取N元特征后,使用胶囊单元对特征进行聚类,从而更好地捕获文本的高层语义特征,同时减少对数据量的需求.实验发现,基于ERNIE+CNN+Capsule的组合模型在真实的电子病历数据集上取得了良好的效果.此外,受图像风格迁移的启发,文中训练了从电子病历文本到病情自述文本的风格转换模型,利用非平行数据,在风格转换模型的基础上
异常检测已广泛应用于多个应用领域,如网络入侵检测、信用卡欺诈检测等.数据维度的增加导致出现许多不相关和冗余的特征,这些特征会掩盖相关特征,出现假阳性结果.由于高维数据具有稀疏性和距离聚集效应,传统的基于密度、距离等的异常检测算法不再适用.大部分基于机器学习的异常检测研究都关注单一模型,而单一模型在抗过拟合能力上存在一定的不足.集成学习模型有着良好的泛化能力,而且在实际应用中展现出比单一模型更好的预测准确性.文中提出了基于邻域一致性的异常检测序列集成方法(Locality and Consistency B
空间co-location模式是其实例在空间邻域内频繁并置出现的一组空间特征集.传统的空间co-location模式挖掘方法通常假设空间实例相互独立,并采用参与度作为模式有趣性的唯一度量指标,没有考虑不同特征或相同特征不同实例在空间邻域内所产生的影响差异,因此挖掘的结果往往缺乏相关性和可解释性.文中提出了一种星型高影响的空间co-location模式及挖掘方法,能够有效发现自身影响高且在邻域范围内也具有一定影响的空间co-location模式.首先,定义了度量模式影响的两个指标:模式影响参与度和模式影响占
企业生产一线经常会遇到各种工程难题,需要在专家的帮助下才能得到有效解决.当前的学术资源推荐系统没有深入挖掘问题与解决方案之间的潜在知识关联,无法针对某一工程问题推荐出合适的专家.针对待解决的企业工程问题推荐专家进行的系统研究如下:1)通过专家合著网络来计算专家影响力,并结合作者次序信息构成合著者之间的偏序信息,提出了融入合著者偏序信息的主题模型,即APO-ACT模型,使作者-会议-主题(ACT)模型能更好地挖掘核心专家,更适用于推荐系统;2)通过问题知识模型挖掘问题与解决方案间的潜在知识关联.融合企业创新
在暗光或逆光拍照时,获得的图像常常出现过暗或光照分布不均的现象,导致图像视觉质量较差.基于Retinex模型的暗光增强模型能实现有效地光照增强.但此类暗光增强模型也存在一些问题,即待处理图像中暗光区域的可视度虽然得到了有效改善,但其中隐藏的噪声也被放大和凸显,依旧影响了增强结果的视觉质量.为解决这一问题,构建了基于低秩矩阵估计的暗光图像增强模型.首先,构建包含噪声项的Retinex模型并对其进行交替优化,将暗光图像分解为光照层I以及反射层R.在这一过程中,利用低秩矩阵估计实现了对R层的噪声抑制.其次,考虑
随着移动增强现实(Mobile Augmented Reality,MAR)技术的飞速发展,MAR应用的种类及功能也越来越丰富多样,与此同时用户对MAR应用的视频质量及响应时间也提出了更高的要求.通常来说,MAR应用会将计算密集型任务(目标识别及渲染)卸载到云端或边缘服务器进行处理,并将渲染后的图像下载到移动端.但由于移动网络状态的不稳定性及网络带宽的限制,海量数据的传输将延长MAR应用响应时间,进而增加移动设备的传输能耗开销,严重影响用户使用体验.由此,文中提出了一种基于梯度提升回归(Gradient