论文部分内容阅读
随着城市化的快速发展,城市与城市间的辨识度越来越弱,人们对千篇一律的城市建筑物已经感到视觉疲劳。那些富含历史文化底蕴的建筑物成为了各个城市争相效仿的目标,各个城市开始修建一些别样特色的建筑物,这些建筑物不仅是城市的地标,也是城市历史文化的传承,也是城市导向的坐标,更是吸引游客的有效手段。而繁杂的特色建筑物对人们的识别也带来了较大的影响,近年来深度学习的方法在图像识别领域取得了巨大的成功,它具有强大的学习能力和高效的特征表达能力,更重要的优点是从像素级的原始数据到抽象的语义概念逐层提取信息,这使得它在提取图像的全局特征方面具有突出的优势,相较于传统的模式识别有更高的识别效率。本文基于深度学习的方法,研究、设计并实现一套建筑物的识别方法,让人们找到这些感兴趣的“网红建筑物”的所在之处,为这些城市带来潜在的旅游价值。本文针对建筑物的各种拍摄环境,制作了专用的地标建筑物数据集。数据集中包含了不同天气、不同光照、不同角度的样本,有效提升模型的抗拟合性。本文使用Faster R-CNN算法作为基础训练模型,针对建筑物识别的特殊场景(建筑物被遮挡、夜间情形等情况),对原有的基础网络进行改进,采用一种稠密连接的残差块网络DRNet。这种网络可以利用之前的特征框图与本层输出结果在通道维数上进行叠加,达到特征重复利用的效果。最终生成的特征框图不但没有失去低层的边缘纹理信息,而且通过在深层的卷积网络复用低层特征框图,使得融合后的特征框图具有更加丰富的特征信息,有效提高了模型对复杂环境下拍摄的照片的识别率。由于采集的数据集图像尺度不一,而原模型在RoI Pooling层提取特征框图时使用了两次整数量化,使得实际的候选框与得到的候选框有一定的差异,特征框图有一定程度的形变,对图像的空间信息有所损失,降低了特征框图的准确度。因此本文使用了RoI Align层提取特征框图,通过双线性插值的方法保留特征框图的浮点数,解决了原算法中区域不匹配的问题实验结果表明,在训练数据集充足的条件下,使用本文方法对地标建筑物能达到82.1%的mAP,对建筑物坐标的预测也较为精准。通过与其他模型比较分析,本文模型不仅对正常图像具有较好的识别效果,而且对复杂环境下拍摄的图像的识别也有优秀的表现。