论文部分内容阅读
【摘 要】现如今循环神经网络(recurrent neural network,RNN)已经成为一种动态处理时间序列数据的高效的神经网络工具。循环神经网络(RNNs)能够从时间序列数据中学习特征和长期依赖关系。循环神经网络几乎可以对任何动态系统进行建模,但是训练过程中极易出现长程依赖的问题。本文介绍了循环神经网络在深度学习领域的基本原理和最新进展,并且分析了今后的研究挑战。
【关键词】循环神经网络;动态系统;深度学习;
RNN的提出与发展
人工神经网络(ANNs)是由被称为人工神经元的连接单元层构成的,其中浅层网络是指一个输入层,一个输出层,最多一个隐含层,没有重复连接的人工神经网络。随着层数的增加,网络的复杂度也随之增加,更多的层数或重复连接通常会增加网络的深度,并使其能够提供不同层次的数据表示和特征提取,这称为深度学习。由于各层的非线性组成所造成的优化困难,在2006年之前,深度网络体系结构方面的工作并不多[1]。而具有循环连接的神经网络被称为循环神经网络(RNNs),它能够对序列数据建模以进行序列识别和预测[2]。RNNs使用隐藏状态在时间维度上对数据信息进行保存和更新,这种结构使RNNs能够长时间存储、记忆和处理过去的复杂信息。基于RNNs的文献中已经发表了大量的论文,从架构涉及到应用发展。表1汇总了RNNs随着时间发展的主要研究进展。
梯度下降算法的发展给RNNs的研究提供了助力,但是RNNs的模型结构导致梯度消失或者爆炸的问题无法避免。为了解决上述问题,带有特殊门控机制的LSTM网络于1997年被提出[3]。到目前为止,已经有超过1000篇关于LSTM和其变体的研究论文发表,其中,900篇是在2015年后发表的。
RNN和其主要变体
循环神经网络(RNN)
RNN是前馈神经网络的一种,它通过包含跨越相邻时间步的有向边来增强单元计算,从而在模型中加入了时间的概念。在时刻t,模型的输入为xt,前一个时刻的隐藏状态为ht-1
则RNN的公式可以定义为:
ht = tanh(Whht-1 + Wxxt + b)
其中Wh,Wx和b是可训练的权重参数,可通过BPTT(backpropagation through time)算法进行更新。
长短时记忆网络(LSTM)
LSTM是一种带有三个门控函数的特殊RNN变体,成功的解决了RNN的梯度消失爆炸问题,并且在传统的机器学习深度学习领域广泛应用。LSTM定义如下:
it = sigmoid(Wxixt + Whiht-1 + bi)
ft = sigmoid(Wxfxt + Whfht-1 + bf)
ot = sigmoid(Wxoxt + Whoht-1 + bo)
ct’= tanh(Wxgxt + Whght-1 + bg)
ct = ftΘct-1 + itΘct’
ht = otΘtanh(ct)
RNN应用方向
RNN主要应用于自然语言处理领域中,比如语言模型任务。LSTM的提出改进了用于语言建模的RNN模型,因为LSTM能够更好地学習序列中的长期依赖关系,而不是简单的隐藏状态。RNN还被应用如生成文学作品如诗词,歌词等。此外,RNN还在文档分类中表现优秀,如GRU被用来进行文档级情绪分析,RCNNs被用于多个数据集的文本分类。在这种方法中,通常将单词映射到一个特征向量,然后将特征向量序列作为输入传递给RNN模型。
在语音信号识别领域中,语音和音频信号会随着时间不断变化,音频信号固有的时序性和时变特性使RNNs成为该领域学习特征的理想模型。在图像识别领域中,虽然CNN在计算机视觉和图像处理方面的应用占主导地位,但RNNs在图像标记、图像建模和手写识别等方面也显示出良好的前景。
参考文献:
[1]Bengio Y,Boulanger-Lewandowski N,Pascanu R.Advances in optimizing recurrent networks[C]//2013 IEEE International Conference on Acoustics,Speech and Signal Processing.IEEE,2013:8624-8628.
[2] Bengio Y,Simard P,Frasconi P.Learning long-term dependencies with gradient descent is difficult[J].IEEE transactions on neural networks,1994,5(2):157-166.
[3] Hochreiter S,Schmidhuber J.Long short-term memory[J].Neural computation,1997,9(8):1735-1780.
作者简介:
刘昌健(1994-),河北沧州人,宁夏大学硕士研究生在读,主要研究深度学习、自然语言处理方向。
(作者单位:宁夏大学信息工程学院)
【关键词】循环神经网络;动态系统;深度学习;
RNN的提出与发展
人工神经网络(ANNs)是由被称为人工神经元的连接单元层构成的,其中浅层网络是指一个输入层,一个输出层,最多一个隐含层,没有重复连接的人工神经网络。随着层数的增加,网络的复杂度也随之增加,更多的层数或重复连接通常会增加网络的深度,并使其能够提供不同层次的数据表示和特征提取,这称为深度学习。由于各层的非线性组成所造成的优化困难,在2006年之前,深度网络体系结构方面的工作并不多[1]。而具有循环连接的神经网络被称为循环神经网络(RNNs),它能够对序列数据建模以进行序列识别和预测[2]。RNNs使用隐藏状态在时间维度上对数据信息进行保存和更新,这种结构使RNNs能够长时间存储、记忆和处理过去的复杂信息。基于RNNs的文献中已经发表了大量的论文,从架构涉及到应用发展。表1汇总了RNNs随着时间发展的主要研究进展。
梯度下降算法的发展给RNNs的研究提供了助力,但是RNNs的模型结构导致梯度消失或者爆炸的问题无法避免。为了解决上述问题,带有特殊门控机制的LSTM网络于1997年被提出[3]。到目前为止,已经有超过1000篇关于LSTM和其变体的研究论文发表,其中,900篇是在2015年后发表的。
RNN和其主要变体
循环神经网络(RNN)
RNN是前馈神经网络的一种,它通过包含跨越相邻时间步的有向边来增强单元计算,从而在模型中加入了时间的概念。在时刻t,模型的输入为xt,前一个时刻的隐藏状态为ht-1
则RNN的公式可以定义为:
ht = tanh(Whht-1 + Wxxt + b)
其中Wh,Wx和b是可训练的权重参数,可通过BPTT(backpropagation through time)算法进行更新。
长短时记忆网络(LSTM)
LSTM是一种带有三个门控函数的特殊RNN变体,成功的解决了RNN的梯度消失爆炸问题,并且在传统的机器学习深度学习领域广泛应用。LSTM定义如下:
it = sigmoid(Wxixt + Whiht-1 + bi)
ft = sigmoid(Wxfxt + Whfht-1 + bf)
ot = sigmoid(Wxoxt + Whoht-1 + bo)
ct’= tanh(Wxgxt + Whght-1 + bg)
ct = ftΘct-1 + itΘct’
ht = otΘtanh(ct)
RNN应用方向
RNN主要应用于自然语言处理领域中,比如语言模型任务。LSTM的提出改进了用于语言建模的RNN模型,因为LSTM能够更好地学習序列中的长期依赖关系,而不是简单的隐藏状态。RNN还被应用如生成文学作品如诗词,歌词等。此外,RNN还在文档分类中表现优秀,如GRU被用来进行文档级情绪分析,RCNNs被用于多个数据集的文本分类。在这种方法中,通常将单词映射到一个特征向量,然后将特征向量序列作为输入传递给RNN模型。
在语音信号识别领域中,语音和音频信号会随着时间不断变化,音频信号固有的时序性和时变特性使RNNs成为该领域学习特征的理想模型。在图像识别领域中,虽然CNN在计算机视觉和图像处理方面的应用占主导地位,但RNNs在图像标记、图像建模和手写识别等方面也显示出良好的前景。
参考文献:
[1]Bengio Y,Boulanger-Lewandowski N,Pascanu R.Advances in optimizing recurrent networks[C]//2013 IEEE International Conference on Acoustics,Speech and Signal Processing.IEEE,2013:8624-8628.
[2] Bengio Y,Simard P,Frasconi P.Learning long-term dependencies with gradient descent is difficult[J].IEEE transactions on neural networks,1994,5(2):157-166.
[3] Hochreiter S,Schmidhuber J.Long short-term memory[J].Neural computation,1997,9(8):1735-1780.
作者简介:
刘昌健(1994-),河北沧州人,宁夏大学硕士研究生在读,主要研究深度学习、自然语言处理方向。
(作者单位:宁夏大学信息工程学院)