论文部分内容阅读
摘要:该文基于误差渐减在线序列 ELM和正则化ELM算法,借鉴正则化ELM算法中计算输出权重向量的方法,即引入正则化因子用以计算权重向量的方法以更新误差渐减在线序列算法中输出权重向量和实际输出,进而提出正则化误差渐减在线序列ELM算法,数值实验表明该算法的优势在学习速度、算法稳定性以及泛化性能方面均有所体现。
关键词:在线序列;误差渐减;正则化
中图分类号:TP311 文献标识码:A 文章编号:1009-3044(2018)11-0273-03
为克服单隐层前向网(SLFN)的学习缺陷,黄广斌于2004年而提出ELM算法[1]。有别于传统算法,ELM算法随机为隐层设定参数,且用最小范数最小二乘法计算算法的输出权重向量。基于ELM算法优势,即学习速度快,泛化能力好,使其得到进一步推广[2-5]。同时,为克服其学习模式的弊端,梁提出在线序列ELM算法(OS-ELM)[6]。由于正则化ELM算法引入正则化因子计算输出权重向量,不仅降低算法复杂度而且提高了算法泛化性能和稳定性,故将其引入OS-ELM系列算法中。
1 预备知识
1.1 正则化ELM算法
正则化ELM算法主体思想如下:
一般而言,所学习的训练样本集
[xi,tiNi=1,xi∈Rd,ti∈-1,1]
包含的输入数据集是可非线性划分的,故通过非线性映射[Φ:xi→Φ(xi)]把样本集中的输入数据集[xi]投射到特征空间[Ζ]中。用[2ω]表示两类数据的间距,并求误差最小时两类数据集间距的最大值,即
[minω,b,ξ:LPSVM=12ω2 Ci=1Nξi] (1.1)
[s,t:ti(W?Φ(xi) b)≥1-ξi, i=1,…,N] (1.2) [ξi≥0,i=1,…,N] (1.3)
其中C是需人工设定的正则化因子,用于平衡两类数据集间距和误差。由文献[7]中相关KKT理论知识可知,上述优化问题可转化为如下对偶优化问题。
[minω,b,ξ:LPSVM=12i=1Nj=1NtitjαiαjΦ(xi)Φ(xj)-i=1Nαi] (1.4) [s.t:i=1Ntiαi=0] (1.5)
[0≤αi≤C,i=1,…,N ] (1.6)
当有新训练样本输入数据[x]添加到网络进行学习时,SVM最终的决策函数可表示为:
[f(x)=sign(s=1NSαstsK(x,xs) b)] (1.7)
其中[NS]表示支持向量[Xs]的数量。
ELM不仅能逼近任意连续的目标函数而且ELM分类器的实际输出能以最小误差接近对应区域的类标签,将上述思想应用于ELM算法,可表述为:
[minβ,ξ:LSVM=12β2 C12i=1Nξ2i] (1.8)
[s,t:h(xi)β=ti-ξi, i=1,…,N] (1.9)
由KKT理论知识,可将上述问题等价转化为:
[LDELM=12β2 C12i=1Nξ2i-i=1Nαi(h(xi)β-ti ξi)] (1.10)
其中参数C表示训练样本集中输入数据对应的拉格朗日乘子向量,上述问题的最优解可从符合下述条件的解中遴选。
其中[α=α1,…,αNT]。
就多元分類问题而言,仅需将每个训练集的输出数据转化为n维向量,如果原始训练样本的输出类标签为p,则期望输出为:[0,…,0,1p,0,…,0T]。所以[ti=ti,1,…,ti,n]中仅第p个元素是1,其余元素均为0,由此上述多元分类问题可描述为:
[minβ,ξ:LPELM=12β2 C12i=1Nξi2] (1.14)
[s,t:h(xi)β=tTi-ξTi, i=1,…,N] (1.15)
其中[ξi=ξi,1,…,ξi,nT]表示第n个期望输出关于训练样本输入数据[xi]的误差向量。由KKT理论可知上述问题的解等价于解决下述对偶问题:
[LDELM=12β2 C12i=1Nξi2-i=1Nαi,j(h(xi)βj-ti,j ξi,j) ]
(1.16)
其中[βj]为连接输出层第j个隐单元与隐层的权重向量。 故寻求上述问题的最优解可从符合以下条件的解中筛选:
其中[αi=αi,1,…,αi,nT],[α=α1,…,αNT]。
把(1.17)式和(1.18)式代入(1.19)式,整理可得
[][(IC HHT)α=T] (1.20)
其中[T=tT1...?TTN]。
结合(1.17)式和(1.20)式可得
[β=HT(IC HHT)-1T] (1.21)
则ELM分类器的输出函数为:
[f(x)=h(x)β=h(x)HT(IC HHT)-1T] (1.22)
其中C为正则化因子,数值实验结果表明,将正则化因子引入算法后,泛化性能和稳定性均有所提高。
2 正则化误差渐减在线序列ELM算法
一方面,随机从所给训练样本集中选取部分数据集作为初始化阶段学习的训练样本集。另一方面,为该部分数据集选取包含隐单元数为[L0]的最优网络(采取k-折交叉验证法),使该网络学习初始数据块的实际输出误差[E0]满足[E0≤ε]([ε]为初始化阶段设定的期望误差),[y]和[Y]均表示网络的实际输出,[ei]和[Ei]表示网络学习第 i块数据时对应的输出误差。
1 初始化阶段
(1) 随机为网络选取参数[(ai,bi),i=1,2,…,L0]。
(2) 计算网络隐层输出矩阵[H0]。
(3)计算网络的权重向量[β0=HT0(IC H0HT0)-1T0],其中 [T0=t1…tN0T],以及该网络对应的实际输出和误差分别为:
2 序列学习阶段
为数据块选取学习该块数据输出的误差满足[Ei≤Ei-1]的网络。
令 [k=Ln-1:S S=Ln-1 NnNn 1×Ln-1]
(1) 随机为网络选取参数[a1n,b1n,a2n,b2n,…,aLn-1-1n,bLn-1-1],为避免产生网络过程中重复计算隐层关于已学习数据的输出而造成时间浪费,故仅计算该数据块关于新增隐节点的隐层输出即可。
1) 随机产生参数[aLn-1n,bLn-1n]。
2)计算网络实际输出[ykn]及误差[ekn]。
其中
(2.3)
3) 比较[Yn-1]和[ykn],如果[ekn≤En-1],则停。否则,令[k=k 1]返回序列学习阶段(1)。 [Φn]表示第[n]步获得最终网络。
[Yn-1=ykn,k 2 令[n=n 1]返回序列学习阶段,直到所有数据全部被学完。
3 数值实验
数值实验是衡量算法优劣的常用工具,因此此实验重点设计比较误差渐减在线序列ELM算法(EOS-ELM)和正则化误差渐减在线序列ELM算法(ReEOS-ELM)的学习时间和泛化性能。本次实验所选基准数据集及所需人工设定参数详见表1。本次实验在CPU 2.4.0GHz、4GB RAM 及Matlab 7.6.0环境中运行所得。所选激活函数类型为:Sigmoid(Sig)激活函数[G(a,b,x)=(1)1 exp(-(a b))]和高斯RBF(RBF)激活函數[G(a,b,x)=exp(-bx-a2)]。
EOS-ELM和ReEOS-ELM实验结果详见表2、表3、表4、表5。由于ReEOS-ELM引入正则化因子计算输出权重向量,相比较于EOS-ELM利用广义逆计算输出权重向量,不仅降低算法复杂度,而且提高算法泛化性能与稳定性,所以ReEOS-ELM学习时间比EOS-ELM少。表2、表3、表4、表5均显示,ReEOS-ELM拥有比EOS-ELM更紧凑的网络结构,同时该算法的学习速度和泛化性能也稍优于EOS-ELM。
4 总结
EOS-ELM采用广义逆计算输出权重以及网络的实际输出,本文通过引入正则化因子计算输出权重和实际输出的方法替代EOS-ELM原有计算权重向量及实际输出的方法,不仅通过降低算法复杂度达到学习速度快的目的,而且进一步提高了算法泛化性能和稳定性。实验证明该ReEOS-ELM算法的确优于EOS-ELM算法。
参考文献:
[1] G.B.Huang,Q.Y.Zhu,C.K.Siew,Extreme learning machine:theory and applications[J].Neural Computing,2006,70(1-3):489-501.
[2] G.B.Huang,Zhu Q.Y,Mao K.Z,Siew C.K,Can Threshold Networks be Trained Directly[J].IEEE Transactions On Circuits and Systems-II:Express Briefs,2006,53(3):187-191.
[3] G.B.Huang,Chen L.C.K.Siew.Universal approximation using incremental constructive feedforward networks with random hidden nodes[J].IEEE Transactions on Neural Networks,2006,17(4):879-892.
[4] G.B.Huang,Chen.L.Convex incremental extreme learning machine[J].Neurocomputing,2007,70(16-18):3056-3062.
[5] J.Wu,S.Wang,F.L.Chung,Positive and negative fuzzy rule system extreme learning machine and image classification[J].International Journal of Machine and Cybernetics,2011,2(4):261-271.
[6] N.Y.Liang,G.B.Huang,P.Sarathandran and N.Sundarajan,A fast and accurate online sequential learning algorithm for feedforward networks[J].IEEE Transactions on Neural Networks,2006,17(6):1411-1423.
关键词:在线序列;误差渐减;正则化
中图分类号:TP311 文献标识码:A 文章编号:1009-3044(2018)11-0273-03
为克服单隐层前向网(SLFN)的学习缺陷,黄广斌于2004年而提出ELM算法[1]。有别于传统算法,ELM算法随机为隐层设定参数,且用最小范数最小二乘法计算算法的输出权重向量。基于ELM算法优势,即学习速度快,泛化能力好,使其得到进一步推广[2-5]。同时,为克服其学习模式的弊端,梁提出在线序列ELM算法(OS-ELM)[6]。由于正则化ELM算法引入正则化因子计算输出权重向量,不仅降低算法复杂度而且提高了算法泛化性能和稳定性,故将其引入OS-ELM系列算法中。
1 预备知识
1.1 正则化ELM算法
正则化ELM算法主体思想如下:
一般而言,所学习的训练样本集
[xi,tiNi=1,xi∈Rd,ti∈-1,1]
包含的输入数据集是可非线性划分的,故通过非线性映射[Φ:xi→Φ(xi)]把样本集中的输入数据集[xi]投射到特征空间[Ζ]中。用[2ω]表示两类数据的间距,并求误差最小时两类数据集间距的最大值,即
[minω,b,ξ:LPSVM=12ω2 Ci=1Nξi] (1.1)
[s,t:ti(W?Φ(xi) b)≥1-ξi, i=1,…,N] (1.2) [ξi≥0,i=1,…,N] (1.3)
其中C是需人工设定的正则化因子,用于平衡两类数据集间距和误差。由文献[7]中相关KKT理论知识可知,上述优化问题可转化为如下对偶优化问题。
[minω,b,ξ:LPSVM=12i=1Nj=1NtitjαiαjΦ(xi)Φ(xj)-i=1Nαi] (1.4) [s.t:i=1Ntiαi=0] (1.5)
[0≤αi≤C,i=1,…,N ] (1.6)
当有新训练样本输入数据[x]添加到网络进行学习时,SVM最终的决策函数可表示为:
[f(x)=sign(s=1NSαstsK(x,xs) b)] (1.7)
其中[NS]表示支持向量[Xs]的数量。
ELM不仅能逼近任意连续的目标函数而且ELM分类器的实际输出能以最小误差接近对应区域的类标签,将上述思想应用于ELM算法,可表述为:
[minβ,ξ:LSVM=12β2 C12i=1Nξ2i] (1.8)
[s,t:h(xi)β=ti-ξi, i=1,…,N] (1.9)
由KKT理论知识,可将上述问题等价转化为:
[LDELM=12β2 C12i=1Nξ2i-i=1Nαi(h(xi)β-ti ξi)] (1.10)
其中参数C表示训练样本集中输入数据对应的拉格朗日乘子向量,上述问题的最优解可从符合下述条件的解中遴选。
其中[α=α1,…,αNT]。
就多元分類问题而言,仅需将每个训练集的输出数据转化为n维向量,如果原始训练样本的输出类标签为p,则期望输出为:[0,…,0,1p,0,…,0T]。所以[ti=ti,1,…,ti,n]中仅第p个元素是1,其余元素均为0,由此上述多元分类问题可描述为:
[minβ,ξ:LPELM=12β2 C12i=1Nξi2] (1.14)
[s,t:h(xi)β=tTi-ξTi, i=1,…,N] (1.15)
其中[ξi=ξi,1,…,ξi,nT]表示第n个期望输出关于训练样本输入数据[xi]的误差向量。由KKT理论可知上述问题的解等价于解决下述对偶问题:
[LDELM=12β2 C12i=1Nξi2-i=1Nαi,j(h(xi)βj-ti,j ξi,j) ]
(1.16)
其中[βj]为连接输出层第j个隐单元与隐层的权重向量。 故寻求上述问题的最优解可从符合以下条件的解中筛选:
其中[αi=αi,1,…,αi,nT],[α=α1,…,αNT]。
把(1.17)式和(1.18)式代入(1.19)式,整理可得
[][(IC HHT)α=T] (1.20)
其中[T=tT1...?TTN]。
结合(1.17)式和(1.20)式可得
[β=HT(IC HHT)-1T] (1.21)
则ELM分类器的输出函数为:
[f(x)=h(x)β=h(x)HT(IC HHT)-1T] (1.22)
其中C为正则化因子,数值实验结果表明,将正则化因子引入算法后,泛化性能和稳定性均有所提高。
2 正则化误差渐减在线序列ELM算法
一方面,随机从所给训练样本集
(1) 随机为网络选取参数[(ai,bi),i=1,2,…,L0]。
(2) 计算网络隐层输出矩阵[H0]。
(3)计算网络的权重向量[β0=HT0(IC H0HT0)-1T0],其中 [T0=t1…tN0T],以及该网络对应的实际输出和误差分别为:
2 序列学习阶段
为数据块
令 [k=Ln-1:S S=Ln-1 NnNn 1×Ln-1]
(1) 随机为网络选取参数[a1n,b1n,a2n,b2n,…,aLn-1-1n,bLn-1-1],为避免产生网络过程中重复计算隐层关于已学习数据的输出而造成时间浪费,故仅计算该数据块关于新增隐节点的隐层输出即可。
1) 随机产生参数[aLn-1n,bLn-1n]。
2)计算网络实际输出[ykn]及误差[ekn]。
其中
3) 比较[Yn-1]和[ykn],如果[ekn≤En-1],则停。否则,令[k=k 1]返回序列学习阶段(1)。 [Φn]表示第[n]步获得最终网络。
[Yn-1=ykn,k
3 数值实验
数值实验是衡量算法优劣的常用工具,因此此实验重点设计比较误差渐减在线序列ELM算法(EOS-ELM)和正则化误差渐减在线序列ELM算法(ReEOS-ELM)的学习时间和泛化性能。本次实验所选基准数据集及所需人工设定参数详见表1。本次实验在CPU 2.4.0GHz、4GB RAM 及Matlab 7.6.0环境中运行所得。所选激活函数类型为:Sigmoid(Sig)激活函数[G(a,b,x)=(1)1 exp(-(a b))]和高斯RBF(RBF)激活函數[G(a,b,x)=exp(-bx-a2)]。
EOS-ELM和ReEOS-ELM实验结果详见表2、表3、表4、表5。由于ReEOS-ELM引入正则化因子计算输出权重向量,相比较于EOS-ELM利用广义逆计算输出权重向量,不仅降低算法复杂度,而且提高算法泛化性能与稳定性,所以ReEOS-ELM学习时间比EOS-ELM少。表2、表3、表4、表5均显示,ReEOS-ELM拥有比EOS-ELM更紧凑的网络结构,同时该算法的学习速度和泛化性能也稍优于EOS-ELM。
4 总结
EOS-ELM采用广义逆计算输出权重以及网络的实际输出,本文通过引入正则化因子计算输出权重和实际输出的方法替代EOS-ELM原有计算权重向量及实际输出的方法,不仅通过降低算法复杂度达到学习速度快的目的,而且进一步提高了算法泛化性能和稳定性。实验证明该ReEOS-ELM算法的确优于EOS-ELM算法。
参考文献:
[1] G.B.Huang,Q.Y.Zhu,C.K.Siew,Extreme learning machine:theory and applications[J].Neural Computing,2006,70(1-3):489-501.
[2] G.B.Huang,Zhu Q.Y,Mao K.Z,Siew C.K,Can Threshold Networks be Trained Directly[J].IEEE Transactions On Circuits and Systems-II:Express Briefs,2006,53(3):187-191.
[3] G.B.Huang,Chen L.C.K.Siew.Universal approximation using incremental constructive feedforward networks with random hidden nodes[J].IEEE Transactions on Neural Networks,2006,17(4):879-892.
[4] G.B.Huang,Chen.L.Convex incremental extreme learning machine[J].Neurocomputing,2007,70(16-18):3056-3062.
[5] J.Wu,S.Wang,F.L.Chung,Positive and negative fuzzy rule system extreme learning machine and image classification[J].International Journal of Machine and Cybernetics,2011,2(4):261-271.
[6] N.Y.Liang,G.B.Huang,P.Sarathandran and N.Sundarajan,A fast and accurate online sequential learning algorithm for feedforward networks[J].IEEE Transactions on Neural Networks,2006,17(6):1411-1423.