论文部分内容阅读
互联网时代的发展带来了海量高复杂度的图像数据,促使计算机视觉衍生出非常多的子课题,随着深度学习在计算机视觉领域应用的发展,许多课题已经取得了很好的成绩,比如图像识别、人脸检测和识别、目标检测等,但一些较为复杂的课题,如研究图像内人与物体交互的课题尚未取得突破。信息时代最为关注以人为中心的计算机视觉课题,因此人与物体交互行为检测有着广泛的应用领域。本文针对现有的人与物体交互行为检测存在的不足展开研究,主要研究工作如下:(1)针对现有主要方法忽视或没能足够有效利用人与物体的局部细节信息问题,提出了一种全新的基于注意力机制的人与物体交互行为识别方法(HumanObject Interaction Recognition Based on Attention Mechanism,HOIR-AM),HOIRAM方法首先使用注意力机制提取视觉特征,使视觉特征不仅包含人与物体实例级别的特征,还包含人与物体感兴趣的局部注意力特征,为区分出各类交互行为提供更细粒度的有效信息,HOIR-AM方法再利用人与物体相对位置关系提取位置特征,最后使用视觉特征与位置特征的融合进行人与物体交互行为识别。在目标检测算法配合下,HOIR-AM方法在V-COCO数据集上取得了46.62的检测平均准确率。(2)针对现有方法和(1)中方法先利用目标检测器检测出人与物体,再使人与物体实例一一组合进行交互行为识别所导致的匹配效率低的问题,提出了一种基于交互匹配网络的人与物体交互行为检测方法(Detection of HumanObject Interaction Based on Human-Object Interaction Matching Network,HOIDHOIMN),HOID-HOIMN方法先利用交互匹配网络先对人与物体组合进行有无交互行为识别,再使用HOIR-AM方法完成交互行为识别,最终在目标检测算法配合下,在V-COCO数据集上取得了46.69的mAP,高于HOIR-AM方法,且识别耗时较HOIR-AM方法降低了12.7%。(3)针对(1)和(2)中先进行目标检测再进行交互行为识别导致的步骤繁琐、耗时较长的问题,设计并实现了一种基于HOID-HOIMN的交互行为检测系统(System of Human-Object Interaction Based on HOID-HOIMN,HOIS-HOIDHOIMN),通过使用特征共享解决特征重复提取的问题,使目标检测、交互匹配和交互行为识别统一在一个框架下执行,实现了一步完成检测,取得了0.2 s/f的检测速度,有较好的实用性。