基于深度学习的图像语义分割算法研究

来源 :沈阳理工大学 | 被引量 : 0次 | 上传用户:chuanqi111
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着深度学习技术的发展,越来越多的计算机视觉领域的问题需要用深度学习网络来解决,比如图像语义分割问题。而把深度卷积神经网络应用于语义分割领域需要解决三个挑战:其一,步长大于1的卷积操作及池化层的存在对特征提取有极大的帮助,但也会带来图像分辨率减小以及空间信息损失的问题;其二,在恢复原图像大小的上采样操作中,一般的网络只利用深层网络及少量浅层网络的特征,这会导致恢复图像因缺失低层次信息而定位不准或边缘模糊;其三,大多数网络因追求图像语义分割的精准度而使用参数量巨大的深层次神经网络,这使得网络运行时响应速度特别慢。如何保证其实时性也是挑战之一。本文针对这些问题,并且基于已有的工作做出了一些改进:(1)为了能充分利用低层次与高层次特征所包含的全部有用信息,本文通过设计并使用两个并列的网络分别提取低层次所包含的定位信息及高层次所包含的分类等抽象特征信息。在每个网络里都使用了类似ResNet深度学习网络的“残差块”结构,充分融合了每一层的信息。最后将两个并列的网络进行相同尺度的上采样后进行网络融合,将融合后的特征图进行上采样恢复原先图像大小,进而完成图像语义分割任务。基于这些改进,在街景数据集上取得了很好的效果。(2)针对于图像语义分割任务中,分类任务与定位任务天生矛盾的问题,使用了去除全局卷积层和全连接层的全卷积神经网络来进行语义分割,在卷积核的选取上,为了实现更好的分类任务,不同于其他网络使用小卷积核叠加代替大卷积核的方式,使用了大卷积核来提取几乎覆盖全图的较大的感受野,这样即使图像中物体尺度变化较大,网络也能成功将其分类。考虑到较大卷积核参数量巨大,提出了将大的6)×6)卷积核分解为两个1×6)和6)×1的组合,并且中间不接relu激活函数,这样既保证了大的Kernal的效果,又减少了参数量。这样与传统的FCN网络相比,效果提升显著。(3)融合前两个网络的结构与卷积核的选取方式,将backbone网络换成轻量型深度学习神经网络,在自动驾驶数据集CamVid上实现实时语义分割。
其他文献
针对产品概念设计时,市场及用户需求获取困难、产品功能模型的构建依赖于设计者知识储备和经验等问题,提出利用专利群辅助完成产品概念设计的专利规避设计方法。首先根据设计
应用半无限相似单元模拟远场,通过动量守恒定理确定辐射阻尼,建立了有限元离散近场的三维波动计算模型,采用中心差分法,可形成显式积分格式,整个近场域具有相同的精度与稳定性,对于