论文部分内容阅读
【摘要】提出一种基于小波变换、相空间重构理论和LS-SVM的P2P流量预测模型。首先将P2P流量分解为小波系数和尺度系数,然后分别对各个系数进行相空间重构,将重构的分量分别通过LS-SVM模型进行预测,最后用小波方法将各个分量的预测值进行再重构,得到原始流量的预测结果。仿真结果表明该模型的预测结果较传统的LS-SVM模型有更高的精度。
【关键词】流量预测小波变换LS-SVMP2P
A p2p Network Forecasting Model Based on Wavelet Decomposition and PSR-LSSVM
AbstractPropose a p2p traffic forcasting model based on wavelet transform,phase space reconstruction theory and LS-SVM.First,p2p traffic is decomposed into wavelet components and scaling components .Then use the phase space reconstruction theory to determine the optimal delay time and minimum of each component.And we use the LS-SVM model to train and predict.Finally,reconstruct each component to get the predicting result of the oringin p2p traffic using wavelet method.Simulating results show that the prediction of this new model approaches higher accuracy than the traditional model.
一、引言
自1995年Napster[1]出现,P2P很快就崭露头角,如今,P2P流量已成为互联网流量的主流。基于P2P协议的软件有下载应用类的软件如BitTorrent、eDonkey、迅雷等和即时信息类软件如:腾讯QQ、微软MSN等以及网络电视类软件如PPstream、PPlive等。P2P应用占用了60%-80%以上的流量,然而,测量结果[2]表明90%的P2P流量仅由20%的peers进行传输,P2P的应用使得少部分人占用了大量的网络带宽,给网络运营带来了很大的压力。
传统的网络流量预测模型如AR、MA、ARMA[3,4]等线性时间序列模型只能描述短相关特性的流量。然而随着网络环境的不断发展,网络流量显示出明显的自相似性[5,6]、突发性[7]和周期性等特性,传统的预测模型已经不能准确地刻画出网络流量的新特性,在实际应用的有很大的局限性。近年来,学者提出了许多新的模型,如FARIMA[8]、灰色模型[9]、神经网络模型[10]、小波模型[11]、SVM[12]等人工智能模型。
针对P2P[13]流量的非线性、数据量大、周期性强、用户行为明显等特性,本文提出了一种基于小波变换、相空间重构和LS-SVM的网络流量预测模型。
二、建模原理
2.1多分辨率分析理论
Mallat等人在1987年提出了多分辨率分析[13]的概念,多分辨率分析的基本思想就是将所选信号分解到不同的频率上。被分解到尺度空间上的信号叫做平滑信号,而另一部分信号叫做细节信号。小波变换就是将信号分解到不同的频率上。
(1)P2P流量时间序列的多尺度分解
首先,选取适当的小波函数和级数,将P2P流量时间序列X(k)分解为j层,如下式:
2.2相空间重构
相空间重构(phase space reconstruction,PSA)理论[14]是分析混沌时间序列的重要方法,它是一种通过有限的样本重构吸引子来研究系统动力学特性的理论。在动力学系统中,一个分量的改变都可以从其它有关的分量显示出来,通过选择合适的相空间重构维数和延迟时间,我们可以得到拥有原系统动态规律的新系统,从而从高维相空间里还原混沌吸引因子。
假定有一时间序列为y(t),t属于(1,N),子为时间的延迟量,m为嵌入维数。M=N-(m-1)子,M是重构后的相点的个数。则此时间序列在重构之后,N个相点在m维相空间中的轨迹为:
其中,||·||表示向量的范数,Yi(m+1)为第i个重构的相空间向量,而m+1为其嵌入维数;Yn(i,m)(m)是距离Yi(m+1)最近的向量,为了检测出E(m)的变化情况,令
E1(m)=E(m+1)/ E(m)
如果预测的序列是混沌序列,那么随着m的增大,E(m)的值会趋于饱和。若大于m0时,E(m)的值接近饱和,那么最小嵌入维数即为m0+1。
2.3最小二乘支持向量机
支持向量机的基本思想是:首先使用非线性变换将输入向量映射到高维特征空间,在这个空间中构造最优决策函数,在构造最优决策函数时应用结构风险最小化原则,并巧妙地利用原空间的核函数取代高维特征空间中的点积运算。最小二乘支持向量机是支持向量机的一种扩展形式,它在支持向量机中引入了最小二乘线性系统,通过二次规划的方法来解决函数估计的问题,其回归算法见文献[15]。
三、基于小波变换和PSR-LSSVM的P2P流量预测模型
3.1模型结构
在实际的网络环境中,P2P流量时间序列是一个非线性、多尺度变换的动力系统。针对它明显的自相似性、突发性、混沌和周期性等特性,本文提出了基于小波变换、相空间重构和LS-LVM的P2P流量预测模型,模型结构图如下: 3.2建模步骤
(1)对原始的P2P流量时间序列y(n)进行M尺度的分解和重构,得到高低频分量aM、dj(j=1...M)。(2)针对aM、dj分别进行相空间重构,根据计算出的嵌入维数m和延迟系数子,得到重构的多维相空间AM(n)、Dj(n),对LS-SVM模型进行训练。(3)将第一步分解的高低频系数分别通过第二步训练好的LS-SVM模型,得到各分量的预测结果y赞aM(n)、y赞dj(n)(4)将上一步的预测结果进行线性
四、仿真实验
本实验数据为在某一主机上,采集QQLive观看电影时产生的流量,以5秒为间隔,数据数量为600。前420个数据作训练集,后180个数据作预测集。并将本模型预测的结果同传统的LS-SVM做比较。为了较好地评价模型的性能,本文选取的性能指标有:
参考文献
[1] Napster[EB/OL].[2012-05-20]. http://www.napster.com
[2]张云飞,雷连虹等. Internet中Peer-to-Peer应用流量测量与分析[J].铁道学报, 2004, 10: 55—60.
[3] Systems //Multimedia Computing and Networding 2002 (MMCN’02)
[4] G. Zhang, G. Xie, J. Yang, D. Zhang, D. Zhang. Self-similar characteristic of traffic in current metro area network [J]. Proc. of 15th IEEE Workshop on Local and Metro Area Networks, 2007,1:176-181.
[5] A Callado, C Kamienski, G Szabó, B Péter-Gero··, J Kelner, S Fernandes et al. A Survey on Internet Traffic Identification [J]. IEEE Communications Surveys and Tutorials, 2009,11(3):37-52.
[6] Kun-Chan Lan, John, Heidemann. A measurement study of correlations of Internet Flow characteristics [J].The International Journal of Computer and Telecommunications Networking,2006,50(1):46-62.
[7]魏武雄.时间序列分析———单变量多变量方法[M].北京,中国人名大学出版社,2005
[8] LiuYuan,CaoJianhua. NetworkTrafficPredictionBasedonGrey Neural Network Integratd model[C]//Proc. of2008 International Conference on Computer Science and Software Engineering.[S.L.]:IEEE Press,2008.
[9]蔡娜娜,陈月辉,李伟.基于神经网络的蛋白质三级结构预测[J].计算机工程,2010,36(9):176—177
[10]雷霆,余镇危.一种网络流量预测的小波神经网络模型[J].计算机应用,2006,26(3):56-58
[11] FengHuifang,ShuYantai,Wangshuyi. SVM-based Models for Pedicitng WLAN Traffic [C]//Proc·ofIEEE International Conference on Cornmunications.[S.L]:IEEE Press, 2006
[12] M R Foster I. Mapping the Gnutella network. IEEE Internet-Computing Jan. 2002,6 :50-57
[13] Saroiu S, Gummadi P K, Gribble S D.A Measurement Study of Peer to Peer File Sharing
[14]吕金虎,陆君安,陈士华,混沌时间序列预测与应用[M].武汉:武汉大学出版,2002
[15]杨延西,刘丁.基于小波变换和最小二乘支持向量机的短期电力负荷预测[J].电网技术,2005,29(13):60-64
【关键词】流量预测小波变换LS-SVMP2P
A p2p Network Forecasting Model Based on Wavelet Decomposition and PSR-LSSVM
AbstractPropose a p2p traffic forcasting model based on wavelet transform,phase space reconstruction theory and LS-SVM.First,p2p traffic is decomposed into wavelet components and scaling components .Then use the phase space reconstruction theory to determine the optimal delay time and minimum of each component.And we use the LS-SVM model to train and predict.Finally,reconstruct each component to get the predicting result of the oringin p2p traffic using wavelet method.Simulating results show that the prediction of this new model approaches higher accuracy than the traditional model.
一、引言
自1995年Napster[1]出现,P2P很快就崭露头角,如今,P2P流量已成为互联网流量的主流。基于P2P协议的软件有下载应用类的软件如BitTorrent、eDonkey、迅雷等和即时信息类软件如:腾讯QQ、微软MSN等以及网络电视类软件如PPstream、PPlive等。P2P应用占用了60%-80%以上的流量,然而,测量结果[2]表明90%的P2P流量仅由20%的peers进行传输,P2P的应用使得少部分人占用了大量的网络带宽,给网络运营带来了很大的压力。
传统的网络流量预测模型如AR、MA、ARMA[3,4]等线性时间序列模型只能描述短相关特性的流量。然而随着网络环境的不断发展,网络流量显示出明显的自相似性[5,6]、突发性[7]和周期性等特性,传统的预测模型已经不能准确地刻画出网络流量的新特性,在实际应用的有很大的局限性。近年来,学者提出了许多新的模型,如FARIMA[8]、灰色模型[9]、神经网络模型[10]、小波模型[11]、SVM[12]等人工智能模型。
针对P2P[13]流量的非线性、数据量大、周期性强、用户行为明显等特性,本文提出了一种基于小波变换、相空间重构和LS-SVM的网络流量预测模型。
二、建模原理
2.1多分辨率分析理论
Mallat等人在1987年提出了多分辨率分析[13]的概念,多分辨率分析的基本思想就是将所选信号分解到不同的频率上。被分解到尺度空间上的信号叫做平滑信号,而另一部分信号叫做细节信号。小波变换就是将信号分解到不同的频率上。
(1)P2P流量时间序列的多尺度分解
首先,选取适当的小波函数和级数,将P2P流量时间序列X(k)分解为j层,如下式:
2.2相空间重构
相空间重构(phase space reconstruction,PSA)理论[14]是分析混沌时间序列的重要方法,它是一种通过有限的样本重构吸引子来研究系统动力学特性的理论。在动力学系统中,一个分量的改变都可以从其它有关的分量显示出来,通过选择合适的相空间重构维数和延迟时间,我们可以得到拥有原系统动态规律的新系统,从而从高维相空间里还原混沌吸引因子。
假定有一时间序列为y(t),t属于(1,N),子为时间的延迟量,m为嵌入维数。M=N-(m-1)子,M是重构后的相点的个数。则此时间序列在重构之后,N个相点在m维相空间中的轨迹为:
其中,||·||表示向量的范数,Yi(m+1)为第i个重构的相空间向量,而m+1为其嵌入维数;Yn(i,m)(m)是距离Yi(m+1)最近的向量,为了检测出E(m)的变化情况,令
E1(m)=E(m+1)/ E(m)
如果预测的序列是混沌序列,那么随着m的增大,E(m)的值会趋于饱和。若大于m0时,E(m)的值接近饱和,那么最小嵌入维数即为m0+1。
2.3最小二乘支持向量机
支持向量机的基本思想是:首先使用非线性变换将输入向量映射到高维特征空间,在这个空间中构造最优决策函数,在构造最优决策函数时应用结构风险最小化原则,并巧妙地利用原空间的核函数取代高维特征空间中的点积运算。最小二乘支持向量机是支持向量机的一种扩展形式,它在支持向量机中引入了最小二乘线性系统,通过二次规划的方法来解决函数估计的问题,其回归算法见文献[15]。
三、基于小波变换和PSR-LSSVM的P2P流量预测模型
3.1模型结构
在实际的网络环境中,P2P流量时间序列是一个非线性、多尺度变换的动力系统。针对它明显的自相似性、突发性、混沌和周期性等特性,本文提出了基于小波变换、相空间重构和LS-LVM的P2P流量预测模型,模型结构图如下: 3.2建模步骤
(1)对原始的P2P流量时间序列y(n)进行M尺度的分解和重构,得到高低频分量aM、dj(j=1...M)。(2)针对aM、dj分别进行相空间重构,根据计算出的嵌入维数m和延迟系数子,得到重构的多维相空间AM(n)、Dj(n),对LS-SVM模型进行训练。(3)将第一步分解的高低频系数分别通过第二步训练好的LS-SVM模型,得到各分量的预测结果y赞aM(n)、y赞dj(n)(4)将上一步的预测结果进行线性
四、仿真实验
本实验数据为在某一主机上,采集QQLive观看电影时产生的流量,以5秒为间隔,数据数量为600。前420个数据作训练集,后180个数据作预测集。并将本模型预测的结果同传统的LS-SVM做比较。为了较好地评价模型的性能,本文选取的性能指标有:
参考文献
[1] Napster[EB/OL].[2012-05-20]. http://www.napster.com
[2]张云飞,雷连虹等. Internet中Peer-to-Peer应用流量测量与分析[J].铁道学报, 2004, 10: 55—60.
[3] Systems //Multimedia Computing and Networding 2002 (MMCN’02)
[4] G. Zhang, G. Xie, J. Yang, D. Zhang, D. Zhang. Self-similar characteristic of traffic in current metro area network [J]. Proc. of 15th IEEE Workshop on Local and Metro Area Networks, 2007,1:176-181.
[5] A Callado, C Kamienski, G Szabó, B Péter-Gero··, J Kelner, S Fernandes et al. A Survey on Internet Traffic Identification [J]. IEEE Communications Surveys and Tutorials, 2009,11(3):37-52.
[6] Kun-Chan Lan, John, Heidemann. A measurement study of correlations of Internet Flow characteristics [J].The International Journal of Computer and Telecommunications Networking,2006,50(1):46-62.
[7]魏武雄.时间序列分析———单变量多变量方法[M].北京,中国人名大学出版社,2005
[8] LiuYuan,CaoJianhua. NetworkTrafficPredictionBasedonGrey Neural Network Integratd model[C]//Proc. of2008 International Conference on Computer Science and Software Engineering.[S.L.]:IEEE Press,2008.
[9]蔡娜娜,陈月辉,李伟.基于神经网络的蛋白质三级结构预测[J].计算机工程,2010,36(9):176—177
[10]雷霆,余镇危.一种网络流量预测的小波神经网络模型[J].计算机应用,2006,26(3):56-58
[11] FengHuifang,ShuYantai,Wangshuyi. SVM-based Models for Pedicitng WLAN Traffic [C]//Proc·ofIEEE International Conference on Cornmunications.[S.L]:IEEE Press, 2006
[12] M R Foster I. Mapping the Gnutella network. IEEE Internet-Computing Jan. 2002,6 :50-57
[13] Saroiu S, Gummadi P K, Gribble S D.A Measurement Study of Peer to Peer File Sharing
[14]吕金虎,陆君安,陈士华,混沌时间序列预测与应用[M].武汉:武汉大学出版,2002
[15]杨延西,刘丁.基于小波变换和最小二乘支持向量机的短期电力负荷预测[J].电网技术,2005,29(13):60-64