论文部分内容阅读
计算机视觉是一个跨学科的研究领域,研究目标是使计算机从数字图像视频中获得高层次的理解。视觉关系检测是连接计算机感知和更高层次语义理解的桥梁。与物体检测的区别在于,计算机需要关注更高层次的特征。本文关系检测方法采用自上而下的的处理策略,基于视觉基因(Visual Genome)数据集,针对复杂场景的图像数据,解决了数据集各个关系数据之间数量不平衡的问题,实现大规模丰富视觉关系的检测,对实现更深层次的语义理解具有重要意义。主要工作和创新点包括:(1)设计了面向大规模复杂视觉关系的检测网络。多层次场景描述网络(Multilevel Scene Description Network,MSDN)目前能够以较快速度实现高效关系检测的网络,在此网络的基础上,本文做了以下的更新:将网络的结构由原来实现的三个层次的任务修改为仅仅适用于物体检测和关系检测的模型,网络由原来的三个分支变成两个分支,消息传递过程仅仅保留物体检测分支到关系检测分支和关系检测分支到物体检测分支两个方向的传递。同时,优化网络中的消息传递过程,提出了基于区域重叠的消息传递策略,有效地提高了网络训练的速度,与基于MSDN网络使用层次化训练策略相比,本文将处理每张图片的平均时间由原来的25.42秒降低到10.35秒,同时,在网路中加入了并行化的策略,使时间降低到5.07秒。(2)针对大规模复杂视觉关系检测网络,提出基于层次辅助损失的层次训练策略。传统的训练方法在数据较少或分布不均匀时会导致网络检测效率低下。为了解决关系数据集中类别之间的频率差距,针对大规模复杂视觉关系检测网络,提出基于层次辅助损失的层次训练策略,缓解了数据集中存在的长尾,同时为计算机理解复杂场景提供可能。从实验结果来看,层次化的训练策略辅助训练的网络能有效地实现复杂关系的检测。(3)复杂视觉关系检测的网络模型和层次训练策略的实验与验证。本文对关系数据集进行清洗,生成两个高质量的大规模复杂关系数据集。基于WordNet针对两个数据集构建谓词树,并提出了新的剪枝策略,减少了树形结构中存在的冗余。对清洗后的关系数据集进行层次化的描述。通过对比实验,验证了复杂视觉关系检测的网络和层次训练策略进行有效性。