论文部分内容阅读
卷积神经网络中的特征融合是提高特征表达能力的重要方法。然而,在一些特殊的场景理解任务中,将不同阶段的特征直接融合会产生相互干扰的负面影响。特别是在复杂环境中,多模态特征的融合问题显得更加重要。本文研究如何利用图神经网络模型建立复杂特征之间的交互模型,并完成关系推理和信息交互,进而避免多模态或者复杂特征的直接融合产生的负面影响。主要工作及创新点包括:在场景密集程度感知任务中,为了缓解真值图中密度响应范围超出人群区域的问题,本文提出基于元学习的混合图神经网络,利用引导性学习来处理多模态数据的信息整合。该方法是第一个能够通过混合图模型显式学习和推理在不同尺度上的人群密度估计及其辅助定位任务之间的高层次关系的深度神经网络。通过实验证明该模型可以精确地利用两个任务之间的协同和互补信息,比单分支网络的预测结果提高了11.7%,达到了同时期工作中最好的效果。在场景语义分割任务中,为了缓解现有算法只关注图像特征表达,难以处理由光照变化和遮挡干扰导致的类别不确定性问题,本文提出语义知识增强神经网络,从整个数据集中提取支持性语义知识。再结合图卷积神经网络进行类别之间的关系推理,强化语义类别及其共现表达的低维特征,用于当前图像特征的语义增强。此外,为了保证场景解析网络的高效性,提出了一种高效对偶特征提取基础模块来构建主干网络,减少整个网络的参数量和降低运算复杂度。通过实验证明该方法在比同时期工作降低53.5%的浮点数运算量和70.2%参数量的情况下,得到近似的结果,实现了效率和性能较好的平衡。在拟人化显著性目标检测任务中,为了解决具有域差异的外观和深度特征之间融合困难的问题,本文提出了级联图神经网络,采用图模型来建立多模态特征之间的交互关系。该级联图模型包含多个层次的图结构,分别处理特定阶段的跨模态信息推理和特征交互,最后通过指导节点进行语义信息传递和引导学习,在级联式的结构中实现了多模态和多尺度特征信息的渐进整合。通过实验证明该模型在7个广泛对比的RGB-D显著性目标检测数据集上,与现有的特征融合方法相比,在4项验证指标的综合比较方面取得了更好的效果。未来可以将本文的方法应用到智能监控、无人驾驶、虚拟现实以及服务机器人等需要视觉场景理解的实际系统中。