论文部分内容阅读
随着经济的增长,现代商业中心渐渐发展成为集购物、餐饮、社交、娱乐于一身的大型商业综合体。由于大型商业综合体往往是多层建筑,无法通过GPS提供可靠的位置信息和导航服务,而商业综合体中各式各样的商店Logo则成为了位置信息的重要参考依据,通过手机等移动智能设备利用视觉技术感知和识别商业环境中商家的Logo信息对用户所在位置进行定位和导航具有重要作用。在自然商业场景中检测和识别商店Logo时往往因为形式多样的品牌种类,复杂多变的环境背景,以及不同光照条件,随机产生的遮挡或模糊等等诸多干扰下,对商店Logo的检测识别算法而言是必须要面临的挑战。目前,已有的商店Logo识别算法尚不能够达到在自然商业场景中实现大规模商店Logo检测与识别的要求。得益于芯片技术的发展,深度学习技术在大规模并行运算芯片的支撑下得到了长足的进步。卷积神经网络是一种非常适用于处理图像数据的深度学习技术,本文提出一种通过卷积神经网络实现的目标检测与图像检索结合的方法,达到在自然场景中识别商店Logo的目的,为最终实现商场定位和视觉导航服务打下基础,同时提出了算法在移动端和服务端进行部署以及深度学习算法落地到具体产品的方法和流程。主要工作包括:1.提出Logo识别算法的实现方案,首先通过目标检测确定Logo在图像中的位置,接着将图像中的Logo区域进行特征编码并与库中的Logo特征码进行检索,将检索得到的Logo标签作为待识别Logo的标签。2.制作了含有4000多张的商场、街道场景的图像数据集,其中2700多张为自主拍摄获得,1300张为互联网爬虫爬取获得。3.借鉴One-Stage、Two-Stage目标检测算法思路以及注意力机制,对已有的目标检测算法进行改进,提出一种基于注意力机制的高效Logo检测方法。4.为了能够在移动端流畅运行,借鉴Mobile Net V2网络的思路,通过深度可分离卷积的方式减少模型的运算参数,利用通道剪枝方法对卷积神经网络模型权重进行剪枝压缩。5.研究和对比了不同移动端深度学习推理框架的优缺点,选择合适的移动端推理框架MNN进行了Logo检测模型的部署。6.通过卷积神经网络对Logo图像特征进行表述并利用主成分分析方法对卷积神经网络输出的特征进行降维压缩。7.将Logo检索算法通过docker部署到服务器上。