论文部分内容阅读
近年来,我国汽车产业发展迅猛,但是产能过剩的问题日益凸显,汽车生产企业面临严峻的发展困境,所以需要科学、准确的汽车销量预测为汽车生产企业提供必要的决策支持,但是汽车生产销售是复杂的周期性过程,实现不同时间周期的精确预测具有一定的难度。而现有研究存在的问题主要包括研究对象选取不当,特征选取体系不完善,预测模型性能有限等方面,因此,本文以网络搜索数据为基础,以多个热销品牌汽车为研究对象并按照机器学习学科领域的完整研究过程,应用多种特征选取算法,实证分析多种预测模型,基于不同时间粒度深入研究,以实现对于品牌汽车销量精确且系统的预测,主要的研究内容包括以下几个方面:(1)品牌汽车销量与网络搜索数据关系模型构建。首先分析了传统时间序列模型的局限性,然后根据购车决策行为发生的过程,说明网络搜索数据在一定程度上代表着消费者购买意向,最后完成了品牌汽车销量与网络搜索数据关系模型框架的建立。(2)品牌汽车网络搜索关键词特征选取。为了减少主观性且最大程度保留有效信息,控制模型复杂度,解决多重共线性及特征冗余等问题,基于特征工程理论,首先使用过滤法进行特征初步筛选,然后在候选特征集上应用基于Lasso模型的变量选取算法以及提出两种基于Svm和RandomForest的启发式递归变量选取算法进行二次特征选择,针对不同品牌的关键词库运用三种方案得到多组最优关键词特征集合,为模型建立做好准备工作。(3)品牌汽车销量多时间粒度预测研究。运用惩罚线性回归、支持向量回归及随机森林三种机器学习算法,基于多组特征子集建立品牌汽车销量短期的预测模型,结果表明基于RandomForest的启发式递归变量选取算法得到的特征子集整体性能最优,随机森林模型指标评价最好;针对不同时间粒度深入研究,发现中长期网络搜索数据与对应销量相关趋势关系显著增强,但不同时间粒度最优特征子集存在差异;在中期和长期销量预测中,随机森林模型的性能仍然是最好的,所有品牌的最优MAPE的均值分别为2.74%和2.94%。通过总结所有实验结果,本文提出的基于网络搜索数据的品牌汽车销量的多时间粒度预测方案,基本实现了包括数据获取,数据预处理,特征选取,预测建模等全流程的体系架构,并且达到了较为精确的预测需求。