论文部分内容阅读
实例搜索是国际知名计算机视觉比赛TRECVID提出的,是指给定一个样例,在图片数据集或一段视频中找到包含这个样例的图片或视频帧。该技术应用广泛,在物品和建筑物的查找以及安防领域都具有重要意义。同样,局部实例搜索也具有一定的实用性。本文提出利用卷积神经网络提取区域特征分别进行全局实例搜索和局部实例搜索。针对实例搜索准确率较低的问题,本文提出利用改进的Faster R-CNN目标检测网络构建实例搜索模型。在数据预处理阶段,采用多种数据增强方法增大训练集,利用平衡采样策略增大小类样本的训练机会。在搜索模块,将候选框得分和余弦距两种相似度匹配方法进行结合,提高目标定位准确度。在模型训练模块,初始化方法改用He初始化方法,并通过对卷积神经网络浅层特征进行融合,之后继续送入到后续网络中提取高层特征,提高高层特征的表达能力。另外,实验中引入了迁移学习方法在Oxford 5k和Paris 6k两个公开数据集上对预训练模型进行微调。实验结果显示,在两个公开数据集上搜索准确率分别达到0.926和0.924,比原始的使用Faster R-CNN网络进行实例搜索的准确率分别提高15.4%和10%。由于局部实例搜索具有重要的实用意义,本文提出将全局实例搜索算法应用到局部实例搜索任务中,即利用残缺图像搜索得到整幅图像。自主构建局部查询图像库,并采用填充的方式对残缺查询图的尺寸作进一步处理。再将全局实例搜索中得到的模型应用到局部实例搜索中进行搜索。实验结果显示,该方法在两个数据集上搜索准确率分别达到0.880和0.859,比目前已有方法在Oxford 5k数据集上准确率高9.5%,返回结果为对应整幅图像,且能准确标记出局部查询图像在整个建筑物中的位置。最后加入在线搜索功能,在未编码的情况下搜索时间在两个数据集上分别达到5.7s和7s。本文提出的全局实例搜索算法搜索准确率高且目标定位显著提升。将全局实例搜索算法应用于局部实例搜索任务,准确率较公开发表论文高,并且具有一定的创新性。