论文部分内容阅读
二手车直卖网是一种基于"互联网+"的新经济形式,它提供了包括专业评估、交易撮合、陪同过户、售后保障等一系列完善的服务,质量保证、没有中间商赚差价,受到人们的广泛好评。几年来成功的运营实践表明,绝大多数二手车直卖网上的二手车数据资料是真实可信的、是高质量的。我们通过爬虫软件爬取了优信二手车网站上的二手车数据,经脱敏和清洗后得到14025组样本数据,然后借助R软件对这些样本数据进行了统计建模。论文的主要工作分为两部分,在第一部分"二手车残值率影响因素分析"的建模过程中,我们通过"xgboost算法"、"GBDT算法"和"随机森林算法"输出了自变量对残值率的重要性排名,得到二手车残值率的影响因素分别是:使用月限、品牌销量排行、新车价、油耗、表显里程等,并综合这些排名挑选重要的变量建立了经典线性回归模型;在第二部分即"售价预测模型"部分中,我们使用回归树算法、boosting算法、bagging算法等5种机器学习算法和经典线性回归建模法进行建模与模型比较,最后选择了预测效果较好的随机森林模型和形式直观易懂的经典线性回归模型作为最终模型。