基于图神经网络的场景理解算法研究

来源 :电子科技大学 | 被引量 : 1次 | 上传用户:yigeyige
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
卷积神经网络中的特征融合是提高特征表达能力的重要方法。然而,在一些特殊的场景理解任务中,将不同阶段的特征直接融合会产生相互干扰的负面影响。特别是在复杂环境中,多模态特征的融合问题显得更加重要。本文研究如何利用图神经网络模型建立复杂特征之间的交互模型,并完成关系推理和信息交互,进而避免多模态或者复杂特征的直接融合产生的负面影响。主要工作及创新点包括:在场景密集程度感知任务中,为了缓解真值图中密度响应范围超出人群区域的问题,本文提出基于元学习的混合图神经网络,利用引导性学习来处理多模态数据的信息整合。该方法是第一个能够通过混合图模型显式学习和推理在不同尺度上的人群密度估计及其辅助定位任务之间的高层次关系的深度神经网络。通过实验证明该模型可以精确地利用两个任务之间的协同和互补信息,比单分支网络的预测结果提高了11.7%,达到了同时期工作中最好的效果。在场景语义分割任务中,为了缓解现有算法只关注图像特征表达,难以处理由光照变化和遮挡干扰导致的类别不确定性问题,本文提出语义知识增强神经网络,从整个数据集中提取支持性语义知识。再结合图卷积神经网络进行类别之间的关系推理,强化语义类别及其共现表达的低维特征,用于当前图像特征的语义增强。此外,为了保证场景解析网络的高效性,提出了一种高效对偶特征提取基础模块来构建主干网络,减少整个网络的参数量和降低运算复杂度。通过实验证明该方法在比同时期工作降低53.5%的浮点数运算量和70.2%参数量的情况下,得到近似的结果,实现了效率和性能较好的平衡。在拟人化显著性目标检测任务中,为了解决具有域差异的外观和深度特征之间融合困难的问题,本文提出了级联图神经网络,采用图模型来建立多模态特征之间的交互关系。该级联图模型包含多个层次的图结构,分别处理特定阶段的跨模态信息推理和特征交互,最后通过指导节点进行语义信息传递和引导学习,在级联式的结构中实现了多模态和多尺度特征信息的渐进整合。通过实验证明该模型在7个广泛对比的RGB-D显著性目标检测数据集上,与现有的特征融合方法相比,在4项验证指标的综合比较方面取得了更好的效果。未来可以将本文的方法应用到智能监控、无人驾驶、虚拟现实以及服务机器人等需要视觉场景理解的实际系统中。
其他文献
单相电压型PWM整流器属于非线性混合控制系统,普通的线性控制方法已无法取得很好的控制效果,因此需要采用非线性控制策略。考虑到三相PWM整流器通常会通过坐标变换到同步旋转
学生的恐惧心理是体操教学的一大障碍.体育教师首先要有高度的责任心,转变"难免"的思想、放任自流的做法;其次,要具备扎实的专业知识和热情稳重的教态,以稳定学生的心理;再次
基于专家信度的数据关心的是不同专家对于某个不确定事件发生可能性的主观判断.这种判断具有样本量少、数据模糊不精确等特点,不同于经典统计学研究的随机抽样,因此不宜直接
人工光源可实现蔬菜的规模化高效生产,然而较高的光源能耗是制约其发展的关键因素。优化光参数是提高植物生产力和光能利用效率的关键。已知光合作用合成的蔗糖、光合相关酶
本论文通过模拟人体生理酸度环境,以中性红等为光谱探针,采用荧光光谱、紫外-可见光谱、圆二色谱和红外光谱法以及熔点和粘度测量技术,并结合化学计量学方法,研究了天然植物
电子民主展现了民主的未来图景,复兴了直接民主的理想。然而,电子民主本身有其局限性,现实发展中面临着诸多亟待解决的问题。数字鸿沟的存在影响着民主参与的平等性;不受控制
含氮有机小分子主要包括有机碱、氨基酸等,具有良好的催化性能,在多种不对称催化反应中得到了广泛的应用,然而当前对含氮有机小分子催化的不对称反应的认识仍然不够深入、全
首饰是一种重要的装饰品,它与服装巧妙配合,更能衬托人的特色和美貌。随着时代的发展,人们对首饰的要求也越来越高,不仅要求首饰具有装饰性,而且需具备其他多种功能。国外一
期刊
焦化废水是一类成分复杂、污染物浓度高且难降解的有机废水,通常采用生化脱氮的工艺进行处理,近年来随着我国水环境管理要求的不断提高,传统生化工艺处理后的出水指标已难以
着眼于具体事实意义上的法律事实,无法妥当解释行为在民法中的归类安排,只有将视角转换到规范的构成要件,才能理顺行为的体系架构。在合法与违法区分的基点上,合法行为尽管与