论文部分内容阅读
在过去的几十年以来,随着科技的进步和社会的发展,尤其是数据的搜集和存储容量的急剧扩张,在很多科学的领域内都或多或少的导致了信息过载问题的发生。研究人员在面临诸如天文学、工程学、生物学、遥感、经济学、消费者交易等广泛的领域内的日常工作中都不得不面对越来越大的观察数据和仿真数据。这些大数据通常都是高维的,由于维数灾难的存在,传统的处理小数据的方法已经不足以胜任了,因此人们必须提出一些新的方法出来。降维技术是处理这些问题的一种行之有效的方法。在过去的几十年以来,降维技术得到了快速的发展,这些方法之中有些是线性的,如PCA等;有些是非线性的,如LLE, SNE, Autoencoder等。这些方法各有各的优点,同时也各有各的缺点,它们在不同的领域都发挥着各自重要的作用。本文的研究重点是基于Autoencoder的降维方法。所谓Autoencoder其实是一种特定的神经网络。神经网络是人们为了模仿动物大脑机能的驱使下通过不断努力的研究而逐渐形成的一种多交叉学科的前沿技术。神经网络的结构通常由输入层、隐藏层、以及输出层组成。当一个神经网络通过给定的数据(其中的一部分作为训练数据)学习完毕后,那么这个神经网络就有了辨别这种数据某些特征的能力。因此它的这种能力可以应用在人脸识别,语音识别的领域。如果Autoencoder的中间层(隐藏层)的节点数远小于输入层(或输出层)的节点数,那么它就可以用来降维,其中隐藏层上神经元的输出就是高维数据在低维空间的表达。G. E. Hinton和R. R. Salakhutdinov在2006年提出了一种Unfolded Autoencoder的神经网络,紧接着在2012年,Jing Wang等人在其基础上提出了改进版本:Folded Autoencoder的神经网络。本文在对上面那两种网络研究的基础上,提出了一种改进Folded Autoencoder神经网络结构的方法。