论文部分内容阅读
对收集到的历史观测数据集进行分析有利于我们发现新知识新规律,时间序列是一种按照时间顺序排列的观测数据集。人们通过对时间序列进行分析来预测观测对象未来一段时间的发展变化,从而做出更好的决策。时间序列预测具有广泛应用,比如在经济领域,气象领域,工商业领域等。时间序列具有数据量大,有噪声,非线性,数据更新变化快等特点。以前的时间序列研究主要依靠传统的统计学方法,但是时间序列数据的复杂性使得这些方法逐渐不能满足要求。人工神经网络在解决复杂的非线性问题时具有自组织,以及非线性能力强等优点,应用在时间序列预测更加有效。本文首先介绍了时间序列预测目前主要采用的几种预测模型,分析目前的方法和模型对于非线性系统预测的优点和不足。然后介绍了人工神经网络尤其是BP神经网络在非线性系统预测的优势。总结了BP神经网络预测模型的一些缺陷,主要是初始权值选择不当导致神经网络容易陷入局部极小值。本文提出一种使用遗传算法优化的BP神经网络模型,用来提高神经网络网络的预测性能。随着互联网,移动通信,物联网等信息技术的发展,数据量增长速度很快。BP神经网络模型在隐含层节点多和数据样本很大时存在网络收敛速度慢等问题。为解决以上问题,基于开源分布式云平台Hadoop,本文提出一种基于MapReduce的并行预测模型。对预测模型的不同阶段进行了分布式并行处理,提高了计算效率本文的主要研究工作如下:1.BP神经网络的网络结构选择缺乏有效的理论指导,网络初始值对神经网络的预测质量影响很大。取值不当可能导致网络陷入局部最优解。本文根据遗传算法全局寻优的特点对BP神经网络的初始权值进行训练,把训练得到结果作为BP神经网络的初始值,用来提高BP网络的预测质量。2.遗传算法优化的BP神经网络算法在样本集很大时,训练很慢,甚至无法收敛。因此本文设计了基于Map Reduce的遗传算法优化的BP神经网络并行方法。优化方法的并行化分成遗传算法的并行化和BP神经网络的并行化两个阶段。遗传算法的并行化使用多种群并行化方法,将多个种群分配到不同的节点运算。选择所有节点中适应度最高的个体,将此时获得的权值作为BP神经网络的初始权值。基于Map Reduce的BP网络并行化阶段,将训练数据集分配在各节点实现并行化,归约阶段计算BP网络的累积误差,批量调整网络的连接权值阈值,多次迭代完成模型的处理。结果证明基于MapReduce的并行方法相比单节点在数据样本规模很大时训练时间明显缩短,取得了良好的加速效果。