改进的LightGBM算法在汽车销售客户流失预警中的应用

来源 :华中农业大学 | 被引量 : 0次 | 上传用户:eva37
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着我国的汽车行业的蓬勃发展,汽车保有量的增长和车龄的不断上升,我国汽车行业的利润链趋向于导向汽车后市场。但是汽车销售服务店在满足客户在售后各种需求上以及服务营销措施等发展并不完善,导致客户存在着流失的问题。因此,汽车销售服务店可以利用客户的信息,对客户是否流失进行预测,对识别为流失的客户采取精准营销手段,降低客户的流失率,减少损失。汽车销售服务店的客户数据分布通常是不平衡的,流失客户数要大幅度低于未流失客户数。在这种情况下,传统的算法一般会过多地关注未流失的客户,导致对流失的客户的错分,这种错分会对汽车销售服务店造成极大的损失。因此,研究汽车销售服务店客户流失分类问题有着重要的意义。针对这种现象,本文以某汽车销售服务店的6万多条客户数据为实验对象进行实验,其包括客户基础信息、车辆基础信息、车辆贷款信息和车辆保险信息共计18个特征。客户数据需要进行探索性分析、数值型数据标准化、非数值型数据特征编码、特征降维等预处理操作。经过文献查阅,以往在客户流失问题中常用的决策树、逻辑回归等算法大都存在运行速率慢、对流失客户预测效果较差等问题。因此本文选取较适合处理大批量、不平衡数据集的Light GBM算法进行建模,并将其结果与其他经典的机器学习算法(GBDT、RF、DT、SVM)进行对比。采用召回率(Recall)和AUC(Area Under Curve)作为评估指标,实验结果发现除Light GBM以外的算法的AUC值都不高,并且所有算法的召回率极低。于是本文对数据采用重采样方法中的IHT欠采样操作,经过欠采样之后的所有算法的召回率和AUC的值分别达到了0.88和0.73以上。之后,本文将深度学习中的Focal Loss损失函数引入Light GBM中得到FL-LGBM模型。使用FL-LGBM模型建模,发现其预测效果更好。召回率值达到了0.9345,AUC的值也达到了0.7608,同时耗时不显著高于其他算法。最后,通过FL-LGBM模型输出特征重要性排序。本文根据研究的结果,得出以下结论:(1)Light GBM模型在客户流失预测中有较好的应用效果,召回率和AUC显著高于其他算法;(2)将改进后的FLLGBM模型运用到客户流失问题中,结果优于经过重采样方法的Light GBM模型和原始Light GBM模型,其可解释性也更强;(3)车龄、车辆保险信息、车辆销售价格、是否贷款买车等因素对客户是否流失有较大的影响,汽车销售服务店可以根据这些信息采取精准营销,降低客户流失率。
其他文献
大数据时代下,机器学习被广泛运用到处理各种分类预测问题中。保险交叉销售预测可视为一个二分类问题,即客户对保险交叉销售产品感兴趣和不感兴趣两种。通过建立一个快速准确的分类模型来预测客户对保险交叉销售产品是否感兴趣,有助于保险公司精准识别投保客户群体,大幅降低保险公司搜寻客户的时间和费用成本,增加公司利润。因此,运用机器学习方法来建立一个适合保险交叉销售数据的预测模型对保险公司来说具有重要的现实意义。
学位
传统高温合金材料的开发是根据生产经验来设计合金的元素成分和工艺参数。高温合金制备成形后,通过拉伸测试和硬度测试等实验方法测定该合金的性能,然后不断重复上述步骤来确定最好的元素成分和工艺参数,此过程中存在成功率低、时间消耗大、计算成本高等诸多问题。近年来,以数据驱动的机器学习方法已成功地应用于材料性能预测、新材料发现以及其他用途,节省实验成本和时间消耗,推动高温合金材料的发展。但获取数据需要大量投入
学位
在对变量和响应之间的关系进行建模前,常常会尽可能全面地收集变量。此过程易引入无效变量,从而导致变量维数过高,提升建模难度。变量选择策略通过筛选有效变量来提升模型的计算便利性和可解释性,在统计和机器学习领域引起广泛关注。已有的变量选择算法主要可分为三大类:基于稀疏正则的算法、基于多重假设检验的算法和基于Knockoff框架的算法。其中基于Knockoff框架的算法能保障变量选择错误发现率(False
学位
为了积极应对人口老龄化,我国实施了一对夫妻可以生育三个子女的政策,由此高龄产妇人数也逐年增多。同时,由于怀孕期间往往需要补充更多的营养,以及体内激素变化等原因,导致妊娠糖尿病发生率呈现增长趋势。妊娠糖尿病是围生期婴儿出现死亡最重要的原因之一,因此实现早期筛查与准确诊断,具有重要的应用价值。近年来智慧医疗和人工智能技术不断进步,许多学者致力于研究能够梳理复杂医学数据间关系的机器学习技术。但是,目前将
学位
叶宁(1919-2017)作为中国近现代舞蹈发展事业中的一位重要人物,对中国古典舞、舞蹈教育、舞蹈美学、舞蹈评论、舞蹈刊物的建设等都做出了巨大的贡献,在理论和实践的关系上,真正做到了“知行合一”。本文以“叶宁在舞蹈研究上的知行合一”为研究对象,力图通过对叶宁在舞蹈事业上所“知”与所“行”的分析,反观她作为新中国第一代舞蹈教育家、舞蹈理论家、舞蹈美学家在带领舞蹈事业发展过程中所作出的贡献,并总结出她
学位
本文以舞蹈亚文化宅舞作为研究对象,运用舞蹈人类学的方法论,结合人类学、传播学和社会学相关视角和理论,对宅舞舞蹈活动的参与规则以及文化逻辑进行深描。在此基础上,从后亚文化的研究视角出发,对宅舞的亚文化特性给予深度考察与阐述,并尝试分析宅舞的本土化过程。本文共有六部分。第一部分为绪论,主要介绍选题缘由与意义、研究方法,以及对田野工作进行大致的概括。第二部分为第一章,从与宅舞的相关概念的界定出发,谈到宅
学位
“他者”本是后殖民语境中的概念,曾意味“外来者,非本民族的和带有贬义的侵略者。”随着研究视角的广泛性,其内涵也随之发生迁移,如今多涉及文化研究中的身份与认同问题。本论文基于研究对象的特殊性和整体的文化研究视角,将后殖民理论和跨文化研究中的“他者”这一概念与研究对象融合,摒弃了传统研究对于“他者身份”的贬化和排斥性,而站在文化交流与传播的立场上接纳、重申“他者”的重要性,并从文化身份变迁入手来剖析具
学位
当前,农业发展主要朝着两个方向迈进,即精准农业和智慧农业方向,农作物生长阶段的有效识别正是这两大方向在农业发展上的重要应用。然而,现阶段将农作物图像特征应用于农作物生长阶段识别的研究还处于探索阶段。本研究根据水稻绿叶面积的变化,依据水稻图像计算了一种名为分形维数的水稻纹理参数,并通过试验证明该参数能够有效地提高模型的分类效果。根据提取的分形维数,本文提出了一种基于机器学习和分形维数的水稻生长阶段识
学位
<正>“你是那夜空中最美的星星,照亮我一路前行……”你是不是也不由自主地哼唱了起来?歌曲《早安隆回》在网络上爆火,还登上了春晚的舞台,歌曲中的隆回,正是那个距离湖南株洲200多公里,雪峰山下的县城隆回。《可可托海的牧羊人》《北京欢迎你》《漠河舞厅》《成都》珠玉在前,如今,身边也有地方因为歌曲被带出圈,这种现象对于地方而言,有没有值得学习借鉴的呢?
期刊
太阳耀斑是一种局部辐射突然增强的太阳活动,它与活动区(Active Regions,ARs)的磁场变动密切相关。耀斑爆发时产生的电离层会迅速扰乱无线电波传播、GNSS导航和卫星定位,进而对航空、卫星、油气工业和电力系统等造成破坏,因此对太阳耀斑进行及时、准确、稳定地预报具有重要意义。然而,由于耀斑爆发分布规律的复杂性及其类别不平衡问题,太阳耀斑预报的稳定性难以得到保证。本文通过对SDO/HMI成像
学位