一种结合多尺度特征图和环型关系推理的场景图生成模型

来源 :计算机科学 | 被引量 : 1次 | 上传用户:sun949423350
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
场景图为描述图像内容的结构图(Graph),其在生成过程中存在两个问题:1)二步式场景图生成方法造成有益信息流失,使得任务难度提高;2)视觉关系长尾分布使得模型发生过拟合、关系推理错误率上升。针对这两个问题,文中提出结合多尺度特征图和环型关系推理的场景图生成模型SGiF(Scene Graph in Features)。首先,计算多尺度特征图上的每一特征点存在视觉关系的可能性,并将存在可能性高的特征点特征提取出来;然后,从被提取出的特征中解码得到主宾组合,根据解码结果的类别差异,对结果进行去重,以此
其他文献
法律是思维的产物。在大陆法系被称为所有权保留买卖的交易形式在美国《统一商法典》中却称为购买价金担保交易,究其原因,在于所持理念的不同。商法典的起草者认为所有权的归
改革开放以来,我国经济一直保持高速增长,人民群众的生活水平也显著提高.然而,经济的高速增长带来了许多现实问题,贫富之间的差距并没有缩小,反而越拉越大,收入分配的不合理
近年来,随着科学技术的迅猛发展,我国的网络技术、信息技术等各种新技术也得到飞快的发展,这也直接促进了企业电子商务快速发展.电子商务作为现代社会的一种新型交易方式,它
基于北京语言大学HSK动态作文语料库的语料分析发现,留学生"是……的"句型的习得性偏误率高达41%,远远高于其他类别的汉语句型,不同语言水平、不同国籍习得者的偏误率也有所不
目前,在密集场景人群计数任务中,标注真实密度图的方法是对行人头部的中心位置进行标注,并利用高斯卷积生成真实的密度分布图作为监督信息。但是,对于密集场景而言,这样的标注方式是费时、费力的,并且密集场景图片中有诸多"非受控"因素,如低分辨率、背景噪声、目标遮挡和尺度变化等。针对这一问题,提出了一种新的标注方法,即只需要知道图片中包含多少个物体,以图片中行人的数量作为监督信息。与传统的真实密度图相比,所
为了提高基于眼电的眼动方向的识别准确性,文中利用包含眼电伪迹的脑电信号,提出了一种新的眼动方向分类方法。首先,在10-20国际标准导联配置下,通过脑电仪采集靠近人脑额叶
注意力机制近年来在多个自然语言任务中得到广泛应用,但在句子级别的情感分类任务中仍缺乏相应的研究。文中利用自注意力在学习句子中重要局部特征方面的优势,结合长短期记忆
随着三维扫描技术的快速发展,三维形状分析得到了学术界的广泛关注;尤其是深度学习在计算机视觉上取得的显著成功,使得基于多视图的三维形状识别方法成为了目前三维模型识别的主流方式。已有研究表明,三维数据集的数量对于最终的分类精度是一个非常重要的影响条件。然而,由于专业三维扫描设备的限制,三维形状数据难以采集。实际上,现有的公共基准三维数据集的规模远远小于二维数据集,三维形状分析的发展因此受到阻碍。为了解
外贸企业作为国民经济的主要构成部分,在数量与社会贡献层面均占据重要的地位。外贸企业尽管代表着创新及活力,但是近些年因市场需求萎缩以及国际经济衰退等因素,致使多数外
在自然语言理解任务中,注意力机制由于可以有效捕获词在上下文语境中的重要程度并提高自然语言理解任务的有效性而受到了人们的普遍关注。基于注意力机制的非递归深度网络Tra