基于网络搜索数据的品牌汽车销量预测研究

来源 :西安理工大学 | 被引量 : 0次 | 上传用户:q28100125
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,我国汽车产业发展迅猛,但是产能过剩的问题日益凸显,汽车生产企业面临严峻的发展困境,所以需要科学、准确的汽车销量预测为汽车生产企业提供必要的决策支持,但是汽车生产销售是复杂的周期性过程,实现不同时间周期的精确预测具有一定的难度。而现有研究存在的问题主要包括研究对象选取不当,特征选取体系不完善,预测模型性能有限等方面,因此,本文以网络搜索数据为基础,以多个热销品牌汽车为研究对象并按照机器学习学科领域的完整研究过程,应用多种特征选取算法,实证分析多种预测模型,基于不同时间粒度深入研究,以实现对于品牌汽车销量精确且系统的预测,主要的研究内容包括以下几个方面:(1)品牌汽车销量与网络搜索数据关系模型构建。首先分析了传统时间序列模型的局限性,然后根据购车决策行为发生的过程,说明网络搜索数据在一定程度上代表着消费者购买意向,最后完成了品牌汽车销量与网络搜索数据关系模型框架的建立。(2)品牌汽车网络搜索关键词特征选取。为了减少主观性且最大程度保留有效信息,控制模型复杂度,解决多重共线性及特征冗余等问题,基于特征工程理论,首先使用过滤法进行特征初步筛选,然后在候选特征集上应用基于Lasso模型的变量选取算法以及提出两种基于Svm和RandomForest的启发式递归变量选取算法进行二次特征选择,针对不同品牌的关键词库运用三种方案得到多组最优关键词特征集合,为模型建立做好准备工作。(3)品牌汽车销量多时间粒度预测研究。运用惩罚线性回归、支持向量回归及随机森林三种机器学习算法,基于多组特征子集建立品牌汽车销量短期的预测模型,结果表明基于RandomForest的启发式递归变量选取算法得到的特征子集整体性能最优,随机森林模型指标评价最好;针对不同时间粒度深入研究,发现中长期网络搜索数据与对应销量相关趋势关系显著增强,但不同时间粒度最优特征子集存在差异;在中期和长期销量预测中,随机森林模型的性能仍然是最好的,所有品牌的最优MAPE的均值分别为2.74%和2.94%。通过总结所有实验结果,本文提出的基于网络搜索数据的品牌汽车销量的多时间粒度预测方案,基本实现了包括数据获取,数据预处理,特征选取,预测建模等全流程的体系架构,并且达到了较为精确的预测需求。
其他文献
海草是一种开花的草本高等植物,由叶、根茎和根系组成,生活于热带、温带近岸海域或滨海河口区水域中,生长在淤泥质或沙质沉积物上,是从陆地逐渐向海洋迁移而形成的。目前全世
一次性使用医疗器械的复用在国际上普遍存在,然而,各国的监管方式不同,甚至很多国家还没有将复用纳入监管。该文介绍和分析了国内外一次性使用医疗器械复用的监管状况;重点介
<正> 四、中国珍珠系列产品的发展动向 进入80年代以来,随着市场经济的发展和人民生活水平的提高,珍珠系列产品获得了迅速的发展。经综合调查,这些产品可以分成七大类,具体见
针对目前表面污染监测的需要,研制了特殊形状的表面污染监测仪。其性能指标满足IEC标准和国家计量检定规程。它的特点是探头尺寸小,可以改变测量方向和角度,并具有可伸缩的长柄。本
长期以来,让主旋律文艺作品赢得更广大群众的青睐,让主旋律精神从演员的表演真正走入观众的心坎,成为文艺工作者孜孜以求的目标。近期,为庆祝抗日战争胜利70周年,中国国家话剧院创
报纸
用微量分光光度法对正常人、肝细胞癌(HCC)和其他疾病患者血清N-乙酰-β-氨基葡萄糖苷酶(NAG)活性进行了测定。结果表明:在反应4h后,HCC患者血清NAG活性(397.10±174.97nmol/
童话是深受孩子喜爱的一种文学样式,在强调语文教育文学性的当今时代,越来越多的童话作品出现在小学语文课本中,小学语文童话作品的教学因而更显出其重要的地位。探寻符合童
总结了73例≥80岁高龄患者行治疗性ERCP的护理。包括术前护理、术中护理及术后护理。认为高龄患者行治疗性ERCP具有疗效好、创伤小、并发症低等特点。加强围手术期的护理、始
资产评估行业在深化国企改革、政府购买服务、企业"走出去"、企业财务管理评估等领域发挥专业作用,要进一步完善资产评估学历教育、注册资产评估师准入制度、行业监督机制,加