基于注意力的场景图生成算法研究与实现

来源 :北京交通大学 | 被引量 : 0次 | 上传用户:ldwwsnake
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
场景图作为图像语义的一种重要表示,可增强图像描述、视觉问答等视觉模型的推理能力,相关生成算法已成为计算机视觉领域的热点研究方向之一,具有重要的研究意义和广泛的应用价值。本文以场景图为研究对象,从提升模型优化能力和引入非视觉引导信息两个方面展开研究,针对性地提出了三种场景图生成模型。本文的主要工作包括:(1)提出了一种双流注意力引导的场景图生成模型(Dual Attention guided scene graph generation Network,DANet)。针对信息传递过程存在的不平衡性,DANet利用双流注意力机制来引导节点间进行有效的信息传递,其中外部注意力决定节点间信息的权重,内部注意力则对传递的信息进行调制。在VRD数据集上与流行的场景图生成算法(F-Net)相比,所提DANet在Phr Det和SGGen任务上的R@n值分别提高了2.07%和2.06%。(2)提出了一种层级信息联合约束的场景图生成模型(Hierarchical MessageConstraint Network for Scene Graph Generation,HMCNet)。HMCNet包含三个主要模块:层级信息传递模块可在信息通路层优化物体与子图的特征;空间特征约束模块可在空间特征层引导节点特征融合;统计关系修正模块则可在决策层利用数据集的统计信息对预测结果进行修正。VRD数据集上的分离实验验证了所提各模块的有效性,同时在VRD、VG-MSDN和VG-DR-NET数据集上,与目前主流的单阶段场景图生成模型相比,所提模型均达到了当前最优水平。(3)提出了一种基于知识路由的轻量级场景图生成模型(Lite Scene Graph Generation Model Based on Knowledge-Embedded Routing,KLNet)。KLNet可以利用数据集的语义信息控制关系预测模块中节点信息的融合,同时通过增加关系预测图中节点数目来增强模型的推理能力。为了加速模型训练,所提模型还引入了注意力剪枝以减少信息传递模块的计算量。VG-IMP数据集上的实验表明,相比目前较先进的基于知识嵌入的场景图生成算法(KERN),所提模型在Pred Cls和SGCls任务上的m R@n指分别提高了2.9%和1.9%,同时训练速度可加快20%,证明了其实用性和有效性。
其他文献
加工方式和加工条件会影响淀粉的结构和消化。所以研究加工条件和加工方式对淀粉的凝胶化和消化性的影响非常重要。本课题主要以小麦淀粉为原料,研究不同加热温度和时间对宽水分含量的淀粉样品的结构的影响,相似凝胶化程度(DG)淀粉的结构和消化性的影响,以及不同加工方式(水热处理和超高压处理)对淀粉结构的影响。研究结果如下:将淀粉和水以不同比例混合,分别在不同温度和时间下加热,研究了淀粉的凝胶化行为。通过DSC
随着互联网的普及,网络信息不仅总量大幅增长,其传播渠道也在逐渐拓宽。渠道的多元化,使得信息的传播由单向转变为多向,并导致在传播过程中更多敏感信息公开。这些敏感信息的泄露,可能会影响到个人隐私、财产、企业信息,甚至国家的安全。不同的领域对于“敏感信息”的界定相距甚远,这对敏感信息的识别带来了一定的障碍。本文以司法信息公开为场景,研究了司法实践中,关于敏感信息公开的识别和脱敏问题。在司法实践过程中,裁
毛南戏有广义、狭义之分,广义的毛南戏是指毛南族戏剧形态,以及包含戏剧元素的其他衍生艺术形式。狭义的毛南戏则指源自“毛南傩戏”,脱胎于毛南族原始敬神祭祀活动中的“肥套”仪式(又称“还愿仪式”),流行于中国唯一的毛南族自治县——广西环江毛南族自治县的少数民族剧种。毛南戏在戏剧形态发展方面,经历了从仪式戏剧,到现代毛南戏,再到戏剧融入舞蹈三个发展阶段。毛南戏是在民间傩仪与民间歌舞的基础之上逐渐发展,其舞
桥梁是交通工程中最重要的结构物之一,传统的设计任务主要集中在桥梁和隧道结构物的平、立、剖与钢筋绘图和结构分析与计算。从表现形式来看,设计师通常用二维的图纸来表达三维的结构形式,而缺乏结构的三维模型,除了容易出现结构表达不清以外,还常常出现大量的绘图方面的错误和工程量统计上的误差,导致较多的施工失误和更多的设计变更。同时,结构计算也主要从二维角度模拟分析,或者建立简化的分析模型,很难实现更加准确的分
随着现代社会的快速发展,传统化石能源被过度使用,导致全球面临着能源枯竭的危机。同时,化石燃料也造成了严重的环境污染。因此,寻找可替代的清洁能源迫在眉睫。燃料电池具有
一个良好的热湿环境有助于营造一舒适健康的工作环境,提高工作效率,减少职业病产生,也能确保人体的热舒适,而在出汗状态下保证人体的舒适也是我们需要考虑到的部分。本文以穿衣人体与周围环境的热交换为基础,对不同环境下的蒸发散热占人体散热比例进行分析比较。本文研究主要分为三个部分:第一部分研究单个因素(环境温度、相对湿度、风速以及表面温度)对散热率的影响;第二部分研究全潮湿状态下4个因素对蒸发散热占总散热比
金属氧化物薄膜晶体管(Metal Oxide Thin Film Transistor,MOTFT)以其高迁移率、均匀性好等优势,在数字电路领域应用潜力巨大,其应用范围已从显示面板电路扩大至柔性电路板上系统(System On Panel,SOP)等。如今,金属氧化物薄膜晶体管仍处于新兴阶段,器件建模方法研究一直是该领域重要发展方向。物理模型开发周期长且需要设置太多物理参数,表格模型需要大量的数据
胜坨油田坨7沙二段8-10砂组经过五十多年的开发,已进入特高含水开发后期,剩余油高度分散,开发成本持续上升,而该区块在储层内部构型、动态非均质性、剩余油分布等方面认识仍
研究目的:本研究测定川崎病儿童ITPKC基因SNP rs28493229等位基因频率、基因型频率,探讨其与川崎病患儿易感性之间的关系。为川崎病基因多态性研究和诊断技术研究提供科学依据。研究方法:使用PCR(聚合酶链反应)技术及直接测序技术,对内蒙古地区30例川崎病患儿及30例健康儿童检测其ITPKC rs28493229位点后,并进行统计学分析。结果:本研究试验组/对照组OR(比值比,Odds R
通过外场观测研究不同粒径雾滴的化学组成特征尤其是有机物组成特征,是雾研究领域的前沿课题。本研究于2017年冬季在南京北郊开展为期45天的雾外场综合观测试验,观测期间,12