论文部分内容阅读
在互联网高速发展的今天,图像作为视觉信息的基本表现形式,已经成为了继文本后又一描述和存储信息的常用载体,其数量正以惊人的速度增长。图像分类技术通过提取不同图像的特征,进而对图像进行分类和识别,以达到理解图像和获取图像关键信息的目的,对社会的发展以及现实的工作生活都具有极其重要的意义。本文主要研究图像分类中的视觉特征提取问题,聚焦当下前沿和热点的深度学习技术。针对现有的深度学习训练参数过多,训练过慢等问题,提出两种新的图像分类框架。与传统的深度学习直接从像素层次进行学习不同,本文框架主要利用预定义的余弦或小波滤波器组对图像进行初级的处理,捕捉图像通用的平移或旋转等刚性变换,获得原有图像在变换域上具有良好不变性和区分性的描述,避免了对多层特征提取框架中低层滤波器的学习。然后再在该频域描述之上构建深度学习网络,从数据中学习图像中未知的复杂变化源,例如目标形状、外观和混杂背景等的变化。本文的主要工作和创新点包括:1.提出了一种结合离散余弦变换和深度网络的快速目标识别算法。该方法的主要思想是使用离散余弦变换来降低输入数据的信息冗余,选择少量的低频系数输入深度网络中。然后通过非监督方法训练深度网络获得好的高层频域特征,再基于这种高层特征进行图像的分类。相关工作已整理发表在国际会议IEEE ICIP 2014上。2.针对传统的散射描述只能描述平移、尺度和线性变形等通用的图像变换,提出一种将散射变换和深度学习进行结合的框架。一方面将小波散射网络作为深度框架的前两层处理。由于散射算子的不变和稳定能力,它可以消除数据的平移或者旋转变化,而且可以把图像映射到一个规则的流形上,从而简化网络后面各层的学习。另一方面,在散射系数之上构建深度网络,可以实现从数据中学习捕捉信号中小波散射无法描述的其他复杂变化源。相关工作已整理投稿期刊。这两种框架通过使用预定义的滤波器替换深度网络中底层的滤波器,不仅避免了从数据中学习这些大量滤波器的参数,还简化了后续网络的学习。该框架相对于传统的以raw-pixel作为输入的深度学习框架,需要的训练时间和计算资源都大幅度的减少,给普通用户提供了一种应用深度学习方法的解决方案。因此,本文方法具有广泛的应用前景。