论文部分内容阅读
近年来,深度学习获得了很大的发展。计算机视觉领域同样受到这种拥有强大学习表征能力层次化连接层结构的深刻影响,尤其以卷积神经网络应用最广、影响最深。卷积神经网络有很多特点,例如局部连接的卷积核、与视觉信号相同的特征维度、高效且复杂的非线性特征表示能力、易于在并行计算设备上部署等。这些特点使得卷积神经网络能够完美地用于解决计算机视觉领域的很多问题,例如,低级别的图像处理任务、中间级别的图像识别以及高级别的图像语义理解。用于图像超分辨的全卷积网络可以看做是一种拥有多层连接的网络结构。这些连接将输入网络的低分辨率图像通过层层映射,最终以高层特征的形式输出,得到高分辨率的图像。分类问题是机器学习领域中的经典问题。在计算机视觉领域,图像分类已经被深刻研究并且广泛应用在了产业界,例如,卷积神经网络很早就被应用在了手写体数字识别,并在银行行业推广。与图像分类不同,物体识别是一个比较高级的视觉任务。它要求算法能够给出图像中物体出现的位置以及类别。最近的研究,例如,R-CNN、YOLO、SSD等,将检测问题转化为了分类问题或者预测问题,这些策略很大程度帮助提高了算法性能。研究者开始放弃传统滑窗等浪费时间和计算资源的暴力搜索方法。扩张卷积是最近被提出的一种新型卷积核。它能够使卷积神经网络获得更大的感受野,同时避免网络参数爆炸或损失卷积特征尺寸。这种特性使其十分适合进行像素级别的预测任务。在第三章,我们提出一种名为扩张卷积网络的网络模型,用来实现图像超分辨(Dilated Convolutional networks for image Super-Resolution,DCSR)。我们分析了扩张卷积的感受野分布范围,并且证明其能够用于图像超分辨的原理。我们将标准的离线卷积核与扩张卷积叠加混合在一起,构成搭建DCSR的基本模块。基于该模块,我们进一步提出了包含混合卷积核的残差模块(mixed residual block.MR-block),以获得更快的收敛速度。并且,我们提出的这种网络模型能够同时学习不同分辨率下的映射关系。实验结果表明,我们提出的方法在峰值信噪比、结构相似性两项指标上已经超过了目前最好水平。同时,在大尺度超分辨任务上,我们提出的方法能够获得更好的视觉效果。在物体检测领域,行人检测具有直接的商业价值,同时,行人在身体姿势、遮挡、背景干扰等方面具有独特的研究价值。行人检测问题自被提出以来就一直是一个棘手的难题。在第四章,我们提出了一种基于全卷积网络的行人身体部位检测器。在“预检测器”提供的检测区域基础上,我们使用深度学习的方法解决检测区域漂移问题。首先,我们将卷积神经网络与全卷积网络相结合,用以修正矩形框的位置。其次,我们在修正后的区域上检测行人部位,用以召回漏检的部位。这种方法能够弥补预检测器召回率不高、检测区域位置不稳定的不足。实验结果表明,我们提出的方法在CifarNet的性能基础上,能够降低丢失率6.83%。