论文部分内容阅读
【摘 要】本文主要针对美国火灾管理部提供的2003-2016年的火灾数据库中wildlands表的数据的研究,利用一系列的数据处理,根据数据分布以频率和过火面积作为森林火灾风险等级的评价标准,做了统计分析和预测模型的建立。首先运用SPSS进行统计,并利用地理信息系统ArcGIS将统计结果描绘在美国地图上。其次选择九个影响火灾危害等级的指标,利用贝叶斯网络、神经网络,随机森林三种机器学习算法建立火灾危害等级的预测模型。最后测试准确率在60%-80%,证明了模型的合理性。同时,对火灾数据进行统计分析,并建立适当的模型对于保护自然,减少经济损失具有重要的现实意义。
【关键词】森林火灾;数据处理;地理信息系统;机器学习
引言
火灾是人类活动与大自然交互的结果,如何有效降低火灾带来的危害,是全世界科研学者所要解决的一项共同难题。如果能够有效找到火灾的发生因素,预测可能发生的火灾并作以预防,从而降低火灾的危害程度,那么将在一定范围内减少火灾给人类活动带来的各种损失。据不完全统计,全世界每天发生火灾1万多起,造成数百人伤亡,因火灾引发的直接和间接经济损失不计其数。根据我们所收集到的数据展现,仅美国一个国家在2014年这一年中发生的大大小小的火灾就高达60万起,并且根据数据文件中记录显示这一数字呈现逐年增长趋势。
1.神经网络算法的实现
人工神经网络无需事先确定输入输出之间映射关系的数学方程,仅通过自身的训练,学习某种规则,在给定输入值时得到最接近期望输出值的结果。基于这一特点,BP神经网络具有任意复杂的模式分类能力和优良的多维函数映射能力,解决了简单感知器不能解决的问题。在解决问题时,我们并不关注神经网络隐藏层中具体每一层的计算权重,而更关注如何通过反向传播来优化网络,逐渐趋向于准确的预测结构。从结构上讲,BP网络具有输入层、隐藏层和输出层;从本质上讲,BP算法就是以网络误差平方为目标函数、采用梯度下降法来计算目标函数的最小值。
2.贝叶斯网络算法与模型结构
贝叶斯网络(Bayesian network),又称信念网络(Belief Network),或有向无环图模型(directed acyclic graphical model),是一种概率图模型,于1985年由Judea Pearl首先提出。它是一种模拟人类推理过程中因果关系的不确定性处理模型,其网络拓朴结构是一个有向无环图(DAG)。贝叶斯网络的有向无环图中的节点表示随机变量:
{X1, X2, …… ,Xn}
它们可以是可观察到的变量,或隐变量、未知参数等。认为有因果关系(或非条件独立)的变量或命题则用箭头来连接。若两个节点间以一个单箭头连接在一起,表示其中一个节点是“因(parents)”,另一个是“果(children)”,两节点就会产生一个条件概率值。简言之,把某个研究系统中涉及的随机变量,根据是否条件独立绘制在一个有向图中,就形成了贝叶斯网络。其主要用来描述随机变量之间的条件依赖,用结点表示随机变量(random variables),用箭头表示条件依赖(conditional dependencies)。
自动设计网络结构的核心问题有两个,一个是评价网络好坏的指标,另一个是查找的方法。穷举是不可取的,因为组合数太大,只能是利用各种启发式方法或是限定搜索条件以减少搜索空间,因此产生两大类方法,Score-based Structure Learning(基于分数的结构学习)与constraint-based structure learning(基于约束的结构学习)。:
接下来需要确定网络的参数,也就是各个边上的条件概率。参数学习有两种典型方法,极大似然估计和贝叶斯估计。因为前者的过拟合严重,一般都使用后者进行参数学习;pgmpy提供的贝叶斯估计器提供三种先验分布的支持,‘dirichlet’, ‘BDeu’, ‘K2’,实际上都是dirichlet分布,贝叶斯估计器的工作原理如下。
在贝叶斯分析的框架下,待求参数被看做是随机变量,对他的估计就是在其先验上,用数据求后验,因此先要有对的先验假设。而我们通常取的先验分布就是dirichlet(狄利克雷)分布。对于一个含有个离散状态的节点,我们设其参数为
并令其先验为狄利克雷分布 D [a1,a2,……,ai](=2时也称beta分布)
这个先验有个参数,数学上证明了,这些参数就相当于将先验表达成了个虚拟样本,其中满足的样本数为,这个就成为等价样本量。另外,其计算后的后验分布也是狄利克雷分布(称这种行为叫共轭先验)。至此就是對模型构建的介绍。我们利用pgmpy库提供了相关的模型构建的函数,在评分函数中我们选择BDeu评分(无差别客观先验,认定各个概率相等,不提供信息。),根据测试集数据算出各个节点直接连线的概率,完成对模型的构建。
3.结语
本项目于2018年11月初开始准备立项,即根据森林火灾的各项数据对其进行分布探究和危害等级的预测,我们开始了本项目的最后阶段,利用机器学习算法对火灾危害等级进行预测,力求找到一个优秀的模型可以尽可能准确的预测发生的火灾的危害程度,进而对其展开救援、防治,在这一阶段我们尝试了许多算法,最终选择了准确率较高的三种算法作为本项目的研究成果,分别是BP神经网络、贝叶斯网络、随机森林这三种算法,经过训练集和测试集的一次又一次的验证准确率一直稳定在60%-80%,可较为准确的对火灾危害等级进行预测,达到了我们预期的目标。
参考文献
[1]陈英达. 突发事件情景间演化关系建模及推演方法研究[D].大连理工大学,2019.
[2]张颖,王美,王静.基于信息扩散理论的森林火灾风险分析及森林资源保护[J].环境保护,2018,46(19):38-43.
【关键词】森林火灾;数据处理;地理信息系统;机器学习
引言
火灾是人类活动与大自然交互的结果,如何有效降低火灾带来的危害,是全世界科研学者所要解决的一项共同难题。如果能够有效找到火灾的发生因素,预测可能发生的火灾并作以预防,从而降低火灾的危害程度,那么将在一定范围内减少火灾给人类活动带来的各种损失。据不完全统计,全世界每天发生火灾1万多起,造成数百人伤亡,因火灾引发的直接和间接经济损失不计其数。根据我们所收集到的数据展现,仅美国一个国家在2014年这一年中发生的大大小小的火灾就高达60万起,并且根据数据文件中记录显示这一数字呈现逐年增长趋势。
1.神经网络算法的实现
人工神经网络无需事先确定输入输出之间映射关系的数学方程,仅通过自身的训练,学习某种规则,在给定输入值时得到最接近期望输出值的结果。基于这一特点,BP神经网络具有任意复杂的模式分类能力和优良的多维函数映射能力,解决了简单感知器不能解决的问题。在解决问题时,我们并不关注神经网络隐藏层中具体每一层的计算权重,而更关注如何通过反向传播来优化网络,逐渐趋向于准确的预测结构。从结构上讲,BP网络具有输入层、隐藏层和输出层;从本质上讲,BP算法就是以网络误差平方为目标函数、采用梯度下降法来计算目标函数的最小值。
2.贝叶斯网络算法与模型结构
贝叶斯网络(Bayesian network),又称信念网络(Belief Network),或有向无环图模型(directed acyclic graphical model),是一种概率图模型,于1985年由Judea Pearl首先提出。它是一种模拟人类推理过程中因果关系的不确定性处理模型,其网络拓朴结构是一个有向无环图(DAG)。贝叶斯网络的有向无环图中的节点表示随机变量:
{X1, X2, …… ,Xn}
它们可以是可观察到的变量,或隐变量、未知参数等。认为有因果关系(或非条件独立)的变量或命题则用箭头来连接。若两个节点间以一个单箭头连接在一起,表示其中一个节点是“因(parents)”,另一个是“果(children)”,两节点就会产生一个条件概率值。简言之,把某个研究系统中涉及的随机变量,根据是否条件独立绘制在一个有向图中,就形成了贝叶斯网络。其主要用来描述随机变量之间的条件依赖,用结点表示随机变量(random variables),用箭头表示条件依赖(conditional dependencies)。
自动设计网络结构的核心问题有两个,一个是评价网络好坏的指标,另一个是查找的方法。穷举是不可取的,因为组合数太大,只能是利用各种启发式方法或是限定搜索条件以减少搜索空间,因此产生两大类方法,Score-based Structure Learning(基于分数的结构学习)与constraint-based structure learning(基于约束的结构学习)。:
接下来需要确定网络的参数,也就是各个边上的条件概率。参数学习有两种典型方法,极大似然估计和贝叶斯估计。因为前者的过拟合严重,一般都使用后者进行参数学习;pgmpy提供的贝叶斯估计器提供三种先验分布的支持,‘dirichlet’, ‘BDeu’, ‘K2’,实际上都是dirichlet分布,贝叶斯估计器的工作原理如下。
在贝叶斯分析的框架下,待求参数被看做是随机变量,对他的估计就是在其先验上,用数据求后验,因此先要有对的先验假设。而我们通常取的先验分布就是dirichlet(狄利克雷)分布。对于一个含有个离散状态的节点,我们设其参数为
并令其先验为狄利克雷分布 D [a1,a2,……,ai](=2时也称beta分布)
这个先验有个参数,数学上证明了,这些参数就相当于将先验表达成了个虚拟样本,其中满足的样本数为,这个就成为等价样本量。另外,其计算后的后验分布也是狄利克雷分布(称这种行为叫共轭先验)。至此就是對模型构建的介绍。我们利用pgmpy库提供了相关的模型构建的函数,在评分函数中我们选择BDeu评分(无差别客观先验,认定各个概率相等,不提供信息。),根据测试集数据算出各个节点直接连线的概率,完成对模型的构建。
3.结语
本项目于2018年11月初开始准备立项,即根据森林火灾的各项数据对其进行分布探究和危害等级的预测,我们开始了本项目的最后阶段,利用机器学习算法对火灾危害等级进行预测,力求找到一个优秀的模型可以尽可能准确的预测发生的火灾的危害程度,进而对其展开救援、防治,在这一阶段我们尝试了许多算法,最终选择了准确率较高的三种算法作为本项目的研究成果,分别是BP神经网络、贝叶斯网络、随机森林这三种算法,经过训练集和测试集的一次又一次的验证准确率一直稳定在60%-80%,可较为准确的对火灾危害等级进行预测,达到了我们预期的目标。
参考文献
[1]陈英达. 突发事件情景间演化关系建模及推演方法研究[D].大连理工大学,2019.
[2]张颖,王美,王静.基于信息扩散理论的森林火灾风险分析及森林资源保护[J].环境保护,2018,46(19):38-43.