论文部分内容阅读
摘要 基于马尔可夫链的河流水质污染预测模型,采用河流水质污染的指标数据,得到水质污染的时间序列值;划分水质污染趋势的狀态空间;建立状态转移矩阵,从而预测水质污染趋势变化区间。结果表明,该模型能够有效地预测河流水质污染的走势,进而能够为相关的环保部门提供治理河流的有效依据,从而达到保护农业灌溉用水的目的。
关键词 河流;污染度;水质;马尔可夫链
中图分类号 S181.3;TP391 文献标识码 A 文章编号 0517-6611(2015)27-209-03
Study on Prediction Model of River Water Quality Contamination Based on Markov Chain
WANG Teng1, XIONG Zhong-hua2, DU Qing-zhi1* et al
(1. College of Information Engineering and Automation, Kunming University of Science and Technology, Kunming, Yunnan 650500; 2. Erhai Lake Basin Protection Agency of Dali, Dali, Yunnan 671000)
Abstract This paper proposes a predictive model for river pollution using Markov chain, in which we use the relative data of environmental pollution to get the time sequential-value. The interval of the variation tendency of water pollution can be predicted with the state spaces and the state transition matrix. According to the experimental results, it is proved that this model can effectively predict the trend of river pollution, so as to provide the effective basis for the management of water environment and achieve the purpose of protecting agricultural irrigation water.
Key words Rivers; Contamination; Water quality; Markov chain
环境保护历来是人们关心的问题,随着各地区经济的快速发展和人口的不断增加,使得大量的工业生产污水以及生活污水排入河流中,不但影响了水环境的质量,导致河流中的生物无法生存,也使得我国农业灌溉用水锐减,水污染日益严重。以往的水质污染预测模型,大部分是根据BP神经网络[1-3]、灰色模型理论[4],并结合化学、物理、生物等因素对污染物的输出以及扩散,来对水质污染程度进行预测[5-10]。虽然这些方法对于水质污染有一定的预测效果,但它仅仅针对一些特定环境下的水质预测,实现预测比较复杂,误差也相对较大,故不能准确地预测水质污染情况。
笔者提出了一种基于马尔可夫链的河流水质污染预测模型,首先分析河流中水的5种化学成分,依次为需氧量COD、氨氮量、固体悬浮物浓度SS、pH和总磷TP,通过使用加权求和的方法计算水质污染程度值,进一步得到水质污染程度变化值,然后基于划分状态区间的污染趋势,用马尔可夫链来构建状态转移矩阵,得到最终的预测结果。
1 基于马尔可夫链的水质污染度剖析
1.1 水质污染程度描述
河流水质污染程度越来越引起人们的关注,这不仅关系到人们的生活环境,也影响了动植物的生存,尤其是农作物的灌溉用水问题。因此,使用化学需氧量COD、氨氮量、固体悬浮物浓度SS、pH和总磷为评价指标,通过加权求和计算水质污染度,来评价河流水质的污染程度。
所用数据主要来源于洱源县环保局永安江在线自动监测系统,数据的抓取时间是2014年6月29日。抓取指标主要包括化学需氧量COD、氨氮浓度、固体悬浮物浓度SS、pH和总磷。数据总样本数为301条,去掉无效或错误数据11条,得到有效记录290条。这290条水质数据的获取时间区间为2014年5月10日~6月11日。
使用B、C、D、E、F分别表示河流中5种水成分的总量,在不同时间(T)内5种水成分含量分别用Bi、Ci、Di、Ei、Fi来表示,这里i=1,2,…,n。由于在同一时刻河流不同位置的监测数据有差异,故需要对所测河流的化学需氧量COD、氨氮量、固体悬浮物浓度SS、pH和总磷TP进行细化统计(表1)。
式中,wi(i=1,2,3,4,5)分别是河流中化学需氧量、氨氮量、固体悬浮物浓度、pH和总磷的权重。采用主观赋权算法来确定这5种水成分的权重值,通过多名专家对多条河流历史数据权值的详细分析,得到每一位专家给出的权重值,然后将得到的权重值利用方根法进行演算,得到权重值分别为w1=0.276 2,w2=0.182 7,w3=0.202 1,w4=0.112 8,w5=0.226 2。
1.2 马尔可夫模型分析
根据河流水质的当前状态,利用马尔可夫模型来预测将来各个时刻水质发生变化的概率。水质污染程度是随时间变化的,故可以看成是时间序列的向量,用H=[H1,H2…Hn]表示,其中n代表水质污染度的时间段。 1.2.1
状态空间的划分。水质污染的变化是一个非平稳的随机过程,它的时间和状态的划分可用离散的过程來表示。首先根据水质污染程度H=[H1,H2,…,Hn],计算每一个水质污染度的趋势变化:ΔHi=Hi+1-Hi,
进而可以得到水质污染趋势值ΔH=[ΔH1,ΔH2,…,ΔHn-1]。根据河流水质污染的历史数据,得到水质污染趋势的n个状态S=(S1,S2,…,Sn)。通过阈值法来设置得到水污染状态的趋势,并依据已知数据的研究确定水质污染程度趋势值分布在4个状态区间内。当水质污染趋势值ΔH>0,设置为S1(污染度急剧升高)、S2(污染度快速下降)两个区间;水质污染趋势值ΔH<0时,设置为S3(污染度急剧升高)、S4(污染度快速下降)两个区间。其中,S1=(ΔHmax/2,ΔHmax);S2=(0,ΔHmax/2);S3=(ΔHmin/2,0);S4=(ΔHmin,ΔHmin/2),其中ΔHmin=min[ΔH1,ΔH2,…ΔHn-1],
ΔHmax=max[ΔH1,ΔH2,…ΔHn-1]
。
1.2.2 建立状态改变矩阵。将水污染程度从现在所处于的状态变化到下一个阶段所处状态的数量统计出来。由表2可知,目前的水质污染程度趋势呈现为S1状态,下一阶段仍呈现出S1状态的统计值为n11,呈现出S2状态的统计值n12,呈现出S3状态的统计值n13,呈现出S4状态的统计值n14。对于现在水质污染趋势值所呈现出的状态S2、S3、S4,都使用上面的方法进行统计。
根据水质污染变化呈现出的状态区间,分析获得马尔可夫状态转移的概率矩阵,当前状态趋势值为ΔHi,所属状态为Si,经一步转移得到下一状态污染程度为ΔHi+1,所属的状态为Sj(其中Si,Sj∈S)的转移概率是Pij,然后经过一步转移的概率矩阵为P=[Pij]。
令Pij=nij/nj=1nij,且nj=1Pij=1(i=1,2,…,n),则状态转移矩阵为:
P=[pij]=
p11p12…p1(n-1)p1n
p21p22…p2(n-1)p2n
p(n-1)1p(n-1)2…p(n-1)(n-1)p(n-1)n
pn1pn2…pn(n-1)pnn
因此,经过x步转移概率矩阵为Px=Px,并且呈现出不同污染状态所在行的趋势值对应相应的状态向量。其中,Q=[q1,q2,…,qn]表示初始概率分布,qi表示初始状态Si的概率,且niqi=1。
1.3 水质污染度趋势预测
在水质污染的预测中,不同时间段的状态概率可以用状态向量π(i)来表示,即π(i)=π(i-1)P,i=1,2,…,n。设定水质污染程度初始化状态为Si,则初始化向量为π0=(1,0,0,…,0),然后利用初始化的向量以及状态转移矩阵来预测未来水质污染程度的状态概率。设稳定后的水质状态向量为π,则
π(1)=π0P=(1,0,0,…,0)P,
π(2)=π(1)P=π0P2,…,π(n)=π(n-1)P=π0Pn。
然后,根据马尔可夫链的稳定条件满足以下关系:π(i)P=π,
其中稳定的状态向量π=[π(1),π(2),…,π(n)],且ni=1π(i)=1。
2 结果与分析
2.1 水质污染度计算
鉴于水质污染程度的计算表达式较为复杂多变,因此对其进行标准化,公式[11]为:
yi=xi-min(xi)max(xi)-min(xi)×100
式中,max(xi)表示污染程度的最大值;min(xi)表示最小值。水质总体污染程度变化范围为[0,100]。
通过加权求和的方法,计算出2014年5月10日~6月11日洱源县环保局永安江的水质污染程度(表3)。
2.2 水质污染度趋势值和状态区间划分
2014年5月10日~6月5日永安江水质污染度趋势值见表4。
通过训练表4中2014年5月10日~6月5日获取的水质污染度趋势值数据,计算出水质污染变化趋势值的状态转移矩阵为:
将刚开始的水质污染趋势值对应的向量设置为P0=(1,0,0,0)。以刚开始设定的向量以及状态转移矩阵作为基础,从而预测2014年6月7~11日水质污染趋势值所处状态的概率,得到以下方程组:
π(1)=38π(1)+314π(2)+13π(3)+12π(3)
π(2)=58π(1)+12π(2)+13π(3)+12π(4)
π(3)=314π(2)
π(4)=114π(2)+13π(3)
依据马尔可夫链的稳定条件求解此方程组,得到水质污染度发展趋势稳定后各状态的向量,即
π=[π(1),π(2),π(3),π(4)]=(8/27,14/27,1/9,2/27)。
由表5可知,基于马尔可夫链的洱源县永安江水质污染度的预测趋势区间前4个与实际情况相符,基本符合河流水质污染程度趋势的变化。说明该模型能有效合理地判别水质污染度的发展趋势。
2.3 马尔可夫链与BP神经网络的对比
在实际中,BP神经网络模型也可以用来预测水质污染程度。依据BP神经网络模型的原理,该模型只能进行一步预测,即通过当前状态m以及以前状态的预测值来预测下一状态m+1。随后将m+1状态的预测值默认为初始值来预测m+2状态时的值,以此类推,来预测以后的水质污染度的变化趋势。以洱源县环保局永安江水质监测为例,将马尔可夫链的水质污染程度预测模型与BP神经网络模型进行了对比。由表6可知,BP神经网络模型的预测准确率不及马尔科夫链模型。 3 结论
针对现实中河流水质污染严重影响到农业灌溉的问题,首先提出了水质污染度的预测方法,然后建立基于马尔可夫链的水质污染趋势预测模型。最后,通过选取洱源县环保局永安江水成分的监测数据进行实证分析,构建状态空间,得到未来一段时间水质污染度发展趋势的预测区间,并将趋势预测值与实测值进行对比。结果表明,该模型可以预测未来一段时间内河流水质污染程度的发展趋势,从而为水污染治理和农业灌溉用水保护提供依据。
参考文献
[1] 陈继光,祝令德.基于神经网络的马尔可夫预测模型[J].计算机工程与应用,2006(6):225-227.
[2] 李向兵.基于BP神经网络与加权模糊的马尔可夫的粮食预测模型[J].甘肃联合大学学报(自然科学版),2013(2):8-13.
[3]刘倪,叶金印.基于RBF神经网络马尔可夫模型的淮河流域汛期暴雨量预测[J].浙江农业科学,2014(8):1256-1259.
[4] 韩晓光,李博宇,管智贇.基于灰色关联分析指标筛选的RBF神经网络-马尔可夫链的空质量气预测模型[J].南开大学学报(自然科学版),2013(2):22-27.
[5] 闫欣荣,史忠科.渭河宝鸡段的水环境容量与水质分析[J].陕西师范大学学报(自然科学版),2004,32(6):29-32.
[6] 康继田.长江水质评价及预测的Markov 链模型[J].湖北工业大学学报,2006,21(6):101-104.
[7] 王丙参,何万生,夏鸿鸣.基于马尔可夫链的渭河天水段水质预测模型[J].高师理科学刊,2012(3):4-7.
[8] THOMAS B,SOLEIMANI-MOHSENI M.Artificial neural network models for indoor temperature prediction:Investigations in two buildings [J].Neural computing & ppplications,2007,16(1):81-89.
[9] 陳振伟,王茜,黄继红.一种新的水质预测模型的仿真实现[J].电脑知识与技术,2010(36):10366-10368.
[10] 陈友超.小湖(库)水质预测模式的应用研究[J].海峡科学,2011(6):80-81.
[11] 叶宗欲.关于指标综合评价中指标正向化和无量纲化方法的选择[J].浙江统计,2003(4):24-25.
关键词 河流;污染度;水质;马尔可夫链
中图分类号 S181.3;TP391 文献标识码 A 文章编号 0517-6611(2015)27-209-03
Study on Prediction Model of River Water Quality Contamination Based on Markov Chain
WANG Teng1, XIONG Zhong-hua2, DU Qing-zhi1* et al
(1. College of Information Engineering and Automation, Kunming University of Science and Technology, Kunming, Yunnan 650500; 2. Erhai Lake Basin Protection Agency of Dali, Dali, Yunnan 671000)
Abstract This paper proposes a predictive model for river pollution using Markov chain, in which we use the relative data of environmental pollution to get the time sequential-value. The interval of the variation tendency of water pollution can be predicted with the state spaces and the state transition matrix. According to the experimental results, it is proved that this model can effectively predict the trend of river pollution, so as to provide the effective basis for the management of water environment and achieve the purpose of protecting agricultural irrigation water.
Key words Rivers; Contamination; Water quality; Markov chain
环境保护历来是人们关心的问题,随着各地区经济的快速发展和人口的不断增加,使得大量的工业生产污水以及生活污水排入河流中,不但影响了水环境的质量,导致河流中的生物无法生存,也使得我国农业灌溉用水锐减,水污染日益严重。以往的水质污染预测模型,大部分是根据BP神经网络[1-3]、灰色模型理论[4],并结合化学、物理、生物等因素对污染物的输出以及扩散,来对水质污染程度进行预测[5-10]。虽然这些方法对于水质污染有一定的预测效果,但它仅仅针对一些特定环境下的水质预测,实现预测比较复杂,误差也相对较大,故不能准确地预测水质污染情况。
笔者提出了一种基于马尔可夫链的河流水质污染预测模型,首先分析河流中水的5种化学成分,依次为需氧量COD、氨氮量、固体悬浮物浓度SS、pH和总磷TP,通过使用加权求和的方法计算水质污染程度值,进一步得到水质污染程度变化值,然后基于划分状态区间的污染趋势,用马尔可夫链来构建状态转移矩阵,得到最终的预测结果。
1 基于马尔可夫链的水质污染度剖析
1.1 水质污染程度描述
河流水质污染程度越来越引起人们的关注,这不仅关系到人们的生活环境,也影响了动植物的生存,尤其是农作物的灌溉用水问题。因此,使用化学需氧量COD、氨氮量、固体悬浮物浓度SS、pH和总磷为评价指标,通过加权求和计算水质污染度,来评价河流水质的污染程度。
所用数据主要来源于洱源县环保局永安江在线自动监测系统,数据的抓取时间是2014年6月29日。抓取指标主要包括化学需氧量COD、氨氮浓度、固体悬浮物浓度SS、pH和总磷。数据总样本数为301条,去掉无效或错误数据11条,得到有效记录290条。这290条水质数据的获取时间区间为2014年5月10日~6月11日。
使用B、C、D、E、F分别表示河流中5种水成分的总量,在不同时间(T)内5种水成分含量分别用Bi、Ci、Di、Ei、Fi来表示,这里i=1,2,…,n。由于在同一时刻河流不同位置的监测数据有差异,故需要对所测河流的化学需氧量COD、氨氮量、固体悬浮物浓度SS、pH和总磷TP进行细化统计(表1)。
式中,wi(i=1,2,3,4,5)分别是河流中化学需氧量、氨氮量、固体悬浮物浓度、pH和总磷的权重。采用主观赋权算法来确定这5种水成分的权重值,通过多名专家对多条河流历史数据权值的详细分析,得到每一位专家给出的权重值,然后将得到的权重值利用方根法进行演算,得到权重值分别为w1=0.276 2,w2=0.182 7,w3=0.202 1,w4=0.112 8,w5=0.226 2。
1.2 马尔可夫模型分析
根据河流水质的当前状态,利用马尔可夫模型来预测将来各个时刻水质发生变化的概率。水质污染程度是随时间变化的,故可以看成是时间序列的向量,用H=[H1,H2…Hn]表示,其中n代表水质污染度的时间段。 1.2.1
状态空间的划分。水质污染的变化是一个非平稳的随机过程,它的时间和状态的划分可用离散的过程來表示。首先根据水质污染程度H=[H1,H2,…,Hn],计算每一个水质污染度的趋势变化:ΔHi=Hi+1-Hi,
进而可以得到水质污染趋势值ΔH=[ΔH1,ΔH2,…,ΔHn-1]。根据河流水质污染的历史数据,得到水质污染趋势的n个状态S=(S1,S2,…,Sn)。通过阈值法来设置得到水污染状态的趋势,并依据已知数据的研究确定水质污染程度趋势值分布在4个状态区间内。当水质污染趋势值ΔH>0,设置为S1(污染度急剧升高)、S2(污染度快速下降)两个区间;水质污染趋势值ΔH<0时,设置为S3(污染度急剧升高)、S4(污染度快速下降)两个区间。其中,S1=(ΔHmax/2,ΔHmax);S2=(0,ΔHmax/2);S3=(ΔHmin/2,0);S4=(ΔHmin,ΔHmin/2),其中ΔHmin=min[ΔH1,ΔH2,…ΔHn-1],
ΔHmax=max[ΔH1,ΔH2,…ΔHn-1]
。
1.2.2 建立状态改变矩阵。将水污染程度从现在所处于的状态变化到下一个阶段所处状态的数量统计出来。由表2可知,目前的水质污染程度趋势呈现为S1状态,下一阶段仍呈现出S1状态的统计值为n11,呈现出S2状态的统计值n12,呈现出S3状态的统计值n13,呈现出S4状态的统计值n14。对于现在水质污染趋势值所呈现出的状态S2、S3、S4,都使用上面的方法进行统计。
根据水质污染变化呈现出的状态区间,分析获得马尔可夫状态转移的概率矩阵,当前状态趋势值为ΔHi,所属状态为Si,经一步转移得到下一状态污染程度为ΔHi+1,所属的状态为Sj(其中Si,Sj∈S)的转移概率是Pij,然后经过一步转移的概率矩阵为P=[Pij]。
令Pij=nij/nj=1nij,且nj=1Pij=1(i=1,2,…,n),则状态转移矩阵为:
P=[pij]=
p11p12…p1(n-1)p1n
p21p22…p2(n-1)p2n
p(n-1)1p(n-1)2…p(n-1)(n-1)p(n-1)n
pn1pn2…pn(n-1)pnn
因此,经过x步转移概率矩阵为Px=Px,并且呈现出不同污染状态所在行的趋势值对应相应的状态向量。其中,Q=[q1,q2,…,qn]表示初始概率分布,qi表示初始状态Si的概率,且niqi=1。
1.3 水质污染度趋势预测
在水质污染的预测中,不同时间段的状态概率可以用状态向量π(i)来表示,即π(i)=π(i-1)P,i=1,2,…,n。设定水质污染程度初始化状态为Si,则初始化向量为π0=(1,0,0,…,0),然后利用初始化的向量以及状态转移矩阵来预测未来水质污染程度的状态概率。设稳定后的水质状态向量为π,则
π(1)=π0P=(1,0,0,…,0)P,
π(2)=π(1)P=π0P2,…,π(n)=π(n-1)P=π0Pn。
然后,根据马尔可夫链的稳定条件满足以下关系:π(i)P=π,
其中稳定的状态向量π=[π(1),π(2),…,π(n)],且ni=1π(i)=1。
2 结果与分析
2.1 水质污染度计算
鉴于水质污染程度的计算表达式较为复杂多变,因此对其进行标准化,公式[11]为:
yi=xi-min(xi)max(xi)-min(xi)×100
式中,max(xi)表示污染程度的最大值;min(xi)表示最小值。水质总体污染程度变化范围为[0,100]。
通过加权求和的方法,计算出2014年5月10日~6月11日洱源县环保局永安江的水质污染程度(表3)。
2.2 水质污染度趋势值和状态区间划分
2014年5月10日~6月5日永安江水质污染度趋势值见表4。
通过训练表4中2014年5月10日~6月5日获取的水质污染度趋势值数据,计算出水质污染变化趋势值的状态转移矩阵为:
将刚开始的水质污染趋势值对应的向量设置为P0=(1,0,0,0)。以刚开始设定的向量以及状态转移矩阵作为基础,从而预测2014年6月7~11日水质污染趋势值所处状态的概率,得到以下方程组:
π(1)=38π(1)+314π(2)+13π(3)+12π(3)
π(2)=58π(1)+12π(2)+13π(3)+12π(4)
π(3)=314π(2)
π(4)=114π(2)+13π(3)
依据马尔可夫链的稳定条件求解此方程组,得到水质污染度发展趋势稳定后各状态的向量,即
π=[π(1),π(2),π(3),π(4)]=(8/27,14/27,1/9,2/27)。
由表5可知,基于马尔可夫链的洱源县永安江水质污染度的预测趋势区间前4个与实际情况相符,基本符合河流水质污染程度趋势的变化。说明该模型能有效合理地判别水质污染度的发展趋势。
2.3 马尔可夫链与BP神经网络的对比
在实际中,BP神经网络模型也可以用来预测水质污染程度。依据BP神经网络模型的原理,该模型只能进行一步预测,即通过当前状态m以及以前状态的预测值来预测下一状态m+1。随后将m+1状态的预测值默认为初始值来预测m+2状态时的值,以此类推,来预测以后的水质污染度的变化趋势。以洱源县环保局永安江水质监测为例,将马尔可夫链的水质污染程度预测模型与BP神经网络模型进行了对比。由表6可知,BP神经网络模型的预测准确率不及马尔科夫链模型。 3 结论
针对现实中河流水质污染严重影响到农业灌溉的问题,首先提出了水质污染度的预测方法,然后建立基于马尔可夫链的水质污染趋势预测模型。最后,通过选取洱源县环保局永安江水成分的监测数据进行实证分析,构建状态空间,得到未来一段时间水质污染度发展趋势的预测区间,并将趋势预测值与实测值进行对比。结果表明,该模型可以预测未来一段时间内河流水质污染程度的发展趋势,从而为水污染治理和农业灌溉用水保护提供依据。
参考文献
[1] 陈继光,祝令德.基于神经网络的马尔可夫预测模型[J].计算机工程与应用,2006(6):225-227.
[2] 李向兵.基于BP神经网络与加权模糊的马尔可夫的粮食预测模型[J].甘肃联合大学学报(自然科学版),2013(2):8-13.
[3]刘倪,叶金印.基于RBF神经网络马尔可夫模型的淮河流域汛期暴雨量预测[J].浙江农业科学,2014(8):1256-1259.
[4] 韩晓光,李博宇,管智贇.基于灰色关联分析指标筛选的RBF神经网络-马尔可夫链的空质量气预测模型[J].南开大学学报(自然科学版),2013(2):22-27.
[5] 闫欣荣,史忠科.渭河宝鸡段的水环境容量与水质分析[J].陕西师范大学学报(自然科学版),2004,32(6):29-32.
[6] 康继田.长江水质评价及预测的Markov 链模型[J].湖北工业大学学报,2006,21(6):101-104.
[7] 王丙参,何万生,夏鸿鸣.基于马尔可夫链的渭河天水段水质预测模型[J].高师理科学刊,2012(3):4-7.
[8] THOMAS B,SOLEIMANI-MOHSENI M.Artificial neural network models for indoor temperature prediction:Investigations in two buildings [J].Neural computing & ppplications,2007,16(1):81-89.
[9] 陳振伟,王茜,黄继红.一种新的水质预测模型的仿真实现[J].电脑知识与技术,2010(36):10366-10368.
[10] 陈友超.小湖(库)水质预测模式的应用研究[J].海峡科学,2011(6):80-81.
[11] 叶宗欲.关于指标综合评价中指标正向化和无量纲化方法的选择[J].浙江统计,2003(4):24-25.