基于神经网络的视觉关系检测

来源 :东南大学 | 被引量 : 0次 | 上传用户:feitianxueyuan110
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
视觉关系检测的目的是找出一幅图像中的多个物体两两之间的视觉关系,生成一个形如<物体1,连接词,物体2>的描述图片的三元词组,并将物体定位,给出其检测框的位置。视觉关系检测可以帮助人们实现对图像更高层次信息的理解。根据视觉关系检测任务的特点,本文分别提出了基于卷积神经网络、循环神经网络和多特征融合的算法。具体内容如下:1.普通的视觉关系检测算法往往以整体三元词组为标签。但是,这类算法往往存在单个三元词组对应的样本量不足、网络泛化性能差,不能实现迁移学习等种种问题。因此,本文提出一种针对视觉关系检测的卷积神经网络,将三元词组进行拆解,训练多分支的卷积神经网络,分层次地解决视觉关系检测问题。实验证明,基于卷积神经网络的模型较传统算法能提高准确率。2.提出了基于循环卷积网络模型的算法。卷积神经网络模型虽然能提高识别准确率,但该算法往往忽略了三元词组中各个元素的内在联系。因此,本文针对视觉关系检测任务优化循环神经网络算法,利用改进的双向循环神经网络生成三元词组。此外,还提出一种以对为单位的非极大值抑制方法,加快模型训练速度。实验证明,基于循环神经网络的算法能够大幅提高检测效果。3.利用多特征融合优化模型在视觉关系任务上的表现。把空间特征、图像特征、类别特征三者融合,用新的多特征向量代替原本的图像特征向量输入到最终的双向循环网络模型中。在实验部分对比多种特征的检测效果,证明多特征融合方法的有效性。
其他文献
目的 探讨多层螺旋CT诊断急性阑尾炎的价值.方法 选取2017年8月-2018年8月期间,到我院治疗急性阑尾炎患者30例,这些患者接受了多层螺旋CT的检查诊断.对其临床资料做回顾分析,
在分析云背景红外图像空间分布上存在混沌现象的基础上,提出一种基于脑模型控制器的红外背景预测算法.该方法利用混沌具有短时可预测性的特点,对云背景图像进行预测,并根据云背景杂波和运动目标的混沌特性差异修正预测模型.仿真结果表明,该算法能有效地提高云背景的预测准确度,预测残差符合白噪音特性,对云背景杂波具有良好的抑制效果,能显著提高目标的信杂比,从而改善目标的检测性能.
当代以色列作家阿摩司·奥兹(Amos Oz,1939-)的诸多小说都对背叛主题进行了描写。在文学传统中,背叛历来被定义为一种违背仁义道德的行为,而在阿摩斯·奥兹的小说中,背叛主题
近年来,燃气集团企业的并购、重组风起云涌,燃气集团企业的管理架构整合与行业信息化的结合风生水起。客户服务信息系统作为燃气集团企业的核心业务应用,渐进式的优化更新与
目的对采用胸腔镜技术对患有自发性气胸的患者进行肺大疱切除手术的围手术期的具体护理措施和相应体会进行总结分析。方法抽取46例患有自发性气胸的临床确诊患者病例,利用胸腔
最高院在2015年初出台的《中华人民共和国民事诉讼法司法解释》中的第513条至516条规定明确规定了执行转破产的制度。之后该制度无论在理论界还是司法实践中均成为了热点问题