基于层次训练策略的大规模复杂视觉关系检测方法研究

来源 :国防科技大学 | 被引量 : 0次 | 上传用户:yxleicht
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
计算机视觉是一个跨学科的研究领域,研究目标是使计算机从数字图像视频中获得高层次的理解。视觉关系检测是连接计算机感知和更高层次语义理解的桥梁。与物体检测的区别在于,计算机需要关注更高层次的特征。本文关系检测方法采用自上而下的的处理策略,基于视觉基因(Visual Genome)数据集,针对复杂场景的图像数据,解决了数据集各个关系数据之间数量不平衡的问题,实现大规模丰富视觉关系的检测,对实现更深层次的语义理解具有重要意义。主要工作和创新点包括:(1)设计了面向大规模复杂视觉关系的检测网络。多层次场景描述网络(Multilevel Scene Description Network,MSDN)目前能够以较快速度实现高效关系检测的网络,在此网络的基础上,本文做了以下的更新:将网络的结构由原来实现的三个层次的任务修改为仅仅适用于物体检测和关系检测的模型,网络由原来的三个分支变成两个分支,消息传递过程仅仅保留物体检测分支到关系检测分支和关系检测分支到物体检测分支两个方向的传递。同时,优化网络中的消息传递过程,提出了基于区域重叠的消息传递策略,有效地提高了网络训练的速度,与基于MSDN网络使用层次化训练策略相比,本文将处理每张图片的平均时间由原来的25.42秒降低到10.35秒,同时,在网路中加入了并行化的策略,使时间降低到5.07秒。(2)针对大规模复杂视觉关系检测网络,提出基于层次辅助损失的层次训练策略。传统的训练方法在数据较少或分布不均匀时会导致网络检测效率低下。为了解决关系数据集中类别之间的频率差距,针对大规模复杂视觉关系检测网络,提出基于层次辅助损失的层次训练策略,缓解了数据集中存在的长尾,同时为计算机理解复杂场景提供可能。从实验结果来看,层次化的训练策略辅助训练的网络能有效地实现复杂关系的检测。(3)复杂视觉关系检测的网络模型和层次训练策略的实验与验证。本文对关系数据集进行清洗,生成两个高质量的大规模复杂关系数据集。基于WordNet针对两个数据集构建谓词树,并提出了新的剪枝策略,减少了树形结构中存在的冗余。对清洗后的关系数据集进行层次化的描述。通过对比实验,验证了复杂视觉关系检测的网络和层次训练策略进行有效性。
其他文献
当今科学技术迅猛发展,光纤传感器因其拥有结构简单、抗电磁干扰能力强、灵敏度高等优点在工程应用中已占据举足轻重的地位。另一方面,新材料的出现对人类社会的发展同样发挥
图像是重要的信息载体,计算机图像处理技术促进了人类科技的发展,提高了人类生产生活水平。计算机图像处理技术已应用在航空航天、道路交通、生物医学、工业检测,通信和安防
随着人工智能的不断进步,深度学习可以训练生成各种场景应用的模型,譬如生物识别、行人检测、人脸识别等,将人工智能与实际应用相结合。而深度学习中识别特定目标最重要的一
行人重识别是检索图像或者视频序列中跨摄像头的特定行人的技术,是计算机视觉和模式识别领域的研究热点之一,具有明显的研究价值和技术挑战性,在智能视频监控、智能安保等领
本论文采用模板法、水热法和超声化学沉积法制备出三种基于ZnO或者SnO2的气敏材料,考察了制备材料的结构特性和气敏性能,具体研究内容如下:以有序多孔ZnO为前驱体,采用水热法
三维建模技术在诸多领域都有着越来越广泛的应用。而目前常用的三维建模软件需要用户付出很高的学习成本,对于普通大众而言很难使用。基于图像的三维模型生成系统则有着简单
为调配我国能源资源分布不均的状况,促进区域间的协调发展,我国已经形成了“西电东送、北电南送”大规模的跨区域输电网络结构。近年来,随着电力市场改革,输电网络损耗作为电
超级电容器是一种性能介于传统电容器和二次电池之间的新型储能器件。随着电化学储能器件的微型化、智能化和便携化发展,柔性超级电容器的研发成为大势所趋。作为超级电容器
近年来碳系纳米材料的产量与应用范围都在快速增加,其将难以避免地进入水环境,成为潜在的污染物,进而对水生态系统带来潜在威胁。研究碳系纳米材料在水中的迁移转化可以更好
随着当今全球经济一体化发展和人口数量的增加,交通运输所扮演的角色在世界范围内受到了极大的关注。经济和运输自然未来的主流观点之一认为交通运输被反映在普通文献当中,强