论文部分内容阅读
价格预测是机器学习领域一个经典的回归问题,因为其在金融、农业、医学、交通等领域的重要价值,一直以来备受学术界和工业界的关注。常规的机器学习应用问题,需要结合业务场景进行特征工程方面的工作,随后进行模型的训练与预测。同理,要解决价格预测问题往往要根据该问题所在的具体领域进行详细的分析与调研,提取到跟领域较为相关的特征,再根据所提取的特征使用机器学习模型来进行训练,从而可以对未来的价格变化趋势做预测。因为农产品价格受供求关系、自然条件、社会和经济条件等多种因素的共同影响,其波动程度相对较大,同时受季节、节假日等影响也较大,所以加大了对农产品价格预测的难度。本文使用的数据为2017年6月前全国各大农产品市场的价格数据,根据农产品的历史价格来预测其未来的价格变化趋势,主要从以下几个方面进行预测研究:(1)首先,本文对得到的农产品数据进行了数据处理和分析,通过使用箱线图、条形图分析数据集得到农产品价格的分布情况,为后续的特征提取做好准备。(2)在特征工程方面,本文根据农产品数据的分布特点,从统计特征、地域特征、季节特征等入手,从16个类别的农产品数据中提取了6大特征群,共136维特征。(3)提取好特征群后,本文使用主流的回归预测模型(线性回归、支持向量机、随机森林等)进行模型训练及单模型价格预测。通过分析不同参数情况下的评测函数的变化对模型进行了参数调优。(4)本文提出了一种分段的加权平均融合模型,该模型用于农产品价格预测中,可以根据线性单模型的不同预测结果来采用不同的加权方式,并且吸收了不同单模型在样本空间的预测优点。实验表明,在MSE与MAPE指标下,本文提出的应用于农产品数据加权平均融合方法可以结合不同单模型的特点,其预测准确度优于单模型,加以推广也可应用于其他领域的价格预测。