论文部分内容阅读
气象因素作为供热负荷的主要影响因素有着较大的研究价值,而基于机器学习的随机森林和梯度提升树(Gradient Boosting Decison Tree,简称GBDT)预测算法能够有效解决供热负荷预测问题,本文主要研究了基于气象因素的供热负荷预测,包括气象因素重要性分析、气象因素和负荷的关联性分析、基于随机森林算法的负荷预测和基于GBDT模型的负荷预测等,为了解决GBDT的不可并行问题引入了随机梯度上升算法,这是借鉴于随机森林算法理念的一种改造。在第四章还引入了当今流行的对抗过拟合技术dropout,并将它与GBDT融合形成了DGBDT算法,使得模型的预测精度进一步提升,本文使用的随机森林、GBDT等算法的实现都是在Spark平台下进行的,这使得模型的训练速度明显提升。最终实验环节对比分析了气象因素对供热负荷的影响、样本数量的影响以及不同算法的预测偏差和参数对比,实验进一步证明了DGBDT的预测有效性。在气象因素和负荷的关系研究上,既在第二章利用了传统的统计学习的方法,又在第三章节利用随机森林模型进行了属性重要性分析,并最终确定了包括日期属性、气象因素、昨日负荷等预测属性。在基于机器学习算法的负荷预测研究中,进行了随机森林、GBDT和DGBDT的原理介绍和模型构建,其中DGBDT是在GBDT的基础上进行正则化处理后与Dropout融合得到的模型,该模型在实验环节证明了它的有效性,即可以进一步提高GBDT的预测精度,同时能更好的处理过拟合问题。在Spark构建环节实现了上述算法的并行化处理,提高了模型的运行效率,并最终在实验环节分析对比了气象因素等属性对供热负荷的影响、各个模型的预测精确度。