基于LightGBM的智慧家庭产品潜在客户挖掘应用及Spark ML算法实践

来源 :锦绣·中旬刊 | 被引量 : 0次 | 上传用户:gx8689326
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  摘 要:本文对中国电信上海公司基于大数据的智慧产品潜在客户挖掘内部竞赛的案例进行了研究。基于大数据工作台的海量数据,利用机器学习、大数据分析技术,采用LightGBM算法,PySpark机器学习算法,预测客户是否购买全屋wifi产品,为客户精准营销注入人工智能、大数据能力,促进公司智慧产品的发展。
  关键词:LightGBM模型;Spark;大数据;客户挖掘
  1 背景
  本论文是中国电信上海公司基于大数据的智慧产品潜在客户挖掘内部竞赛的案例,基于客户标识及客户话单数据,预测客户是否购买中国电信全屋wifi产品,1表示购买,0表示不买。
  案例由上海公司大数据工作台提供竞赛数据,此次数据集的难点在于:1.训练数据量大:包括客户标识数据(约250万条记录,129个字段)、客户话单数据(约13亿条记录,86个字段)、训练集(8万条记录)、测试集(5万条记录)。2.数据稀疏性:一些特征没有取值,部分关联记录数较少。3.一些特征与训练集具有强相关性,导致出现过拟合。
  本文对LightGBM算法进行了应用,同时使用PySpark机器学习算法对客户是否购买全屋wifi产品进行预测,提交最优的预测结果。研究的主要内容如下:机器学习数据预处理、数据探索、相关性分析、LightGBM模型分析、特征衍生、模型优化;使用PySpark研究基于分布式集群的朴素贝叶斯、决策树、随机森林、逻辑回归等算法模型。
  2 机器学习LightGBM算法应用
  LightGBM是美国微软公司开源提供的一个基于树学习算法的梯度增强框架。LightGBM具有以下优点:训练速度快,效率高、内存使用率低、预测较精确、支持并行和GPU学习、能够处理大规模数据。LightGBM被广泛地应用于Kaggle各类机器学习竞赛中。
  本案例采用竞赛中常用的数据预处理、数据探索、相关性分析、模型分析、特征衍生、模型优化等特征工程技术,使用LightGBM算法作为基线模型代码实现全屋wifi产品预测,对机器学习经典的二分类问题进行实践探索。
  2.1 数据预处理
  客户标识数据、客户话单数据、训练集、测试集各数据集放置于内部大数据工作台,基于Hadoop大数据平台存放数据,采用Hive工具进行统计分析。如直接将客户标识数据、客户话单数据、训练集三张表关联,由于数据量较大,MapReduce运行时可能会卡住,因此,可以先将客户标识表按设备号聚合以后导入新建的客户标识表(约13万条记录),将客户话单数据按设备号聚合导入新建的客户话单数据表(约2300万条记录),然后再分别与训练集、测试集进行左关联,导出数据保存为新的训练集(8万条记录)、测试集(5万条记录)。
  2.2 数据探索
  关联以后的新训练集、测试集包括资产状态名称、套餐名称、销售策略名称、上网(兴趣)偏好、注智-偏好终端品牌、月均ARPU、客户副卡数、终端型号、地址客户月均ARPU、入网时间(本省)、应用名称、应用访问次数、访问URL信息等字段,通过可视化、计算统计值探索训练集、测试集的整体分布信息,查找数据记录可能的异常值,进一步熟悉业务数据。
  本案例中对各字段的值进行分布统计;对业务时间进行转换,从入网时间、客户生日、协议约束到期日期、开通日期时间中抽取年、月、日、周、季度等信息,对客户的应用访问次数进行求和、求平均、異常值处理;分析数据集每一个字段的类型(字符串类型、数字类型);指定类别特征,对于是否购买wifi产品,不同类别分布差异的可视化;采用均值,极值和标准差等相关描述统计指标分析;进行EDA可视化数据探索,对于地址客户月均ARPU这个特征,基于数据集的样本量,训练集与测试集分布差异不大。
  2.3 相关性分析
  本案例数据集特征数量较大,相关性分析是基于全量数据研究两个或两个以上特征之间的相关关系,如果两个特征存在较多缺失值,那么计算的相关性偏差很大。因此,先进行空值搜索,统计具有相同空值行记录数的字段组,将缺失值完全相同的特征放在一组,观察数据分布;然后,使用相关性热力图进行可视化,协议约束日期字段抽取的“年、月、日、星期几、一年的某天、一年的某周、季度”字段信息具有相同的缺失记录,将相关性高(r>0.97)的特征分为一组,按0.97阈值卡时间特征,然后选择每一组中具有较多不同数据值的列来代替这一组,剔除冗余的列,这组选出的特征为“年、日、星期几、一年的某天、一年的某周”。依此类推,计算各组特征的相关性,获取需要的特征集。
  2.4 构建LightGBM基线模型及模型分析
  根据相关性计算,从训练集及测试集选择需要的特征列,设置LightGBM超参数,构建LightGBM基线模型进行训练及预测,预测结果发现基线模型出现过拟合现象。过拟合是因为训练集、测试集数据分布的差异性,本案例使用对抗法验证数据集的分布偏移,将训练集的标签设置为1,测试集的标签设置为0,训练一个LightGBM模型,通过AUC判断训练集、测试集数据分布的差异程度,并且通过特征重要性的计算,判断哪些特征带来了较大的特征偏移。发现DEV_BUREAU_NAME(区局名称)特征与训练集具有强关联性,删掉区局名称特性,使用LightGBM基线模型进行交叉验证,预测评分提升较显著。
  使用对抗性验证法能找到过拟合的部分特征,但是将重要性特征榜单排名靠前的特征逐一去掉以后,发现预测评估分数又大大下降,因此不能完全依赖于对抗性验证法,案例同时采用Kris验证法对每一个特征单独进行交叉验证,如果这个特征对训练集AUC贡献较小,对验证集AUC贡献度小于0.5,就去掉这个特征,在此基础上继续做特征重要性分析,微调选择的特征集,预测评分又有所提升。
  2.5  特征衍生与模型优化   特征衍生是基于现有的特征进行组合,生成新的具有含义的特征。本案例中选择重要类别的特征,如月均ARPU、地址客户资产结构、地址客户月均ARPU等特征,将各重要类别进行值分布编码,以及重要类别进行两两合并,两个类别组成一个新特征,或者三三合并,将三个类别特征组成一个新特征,训练LightGBM模型进行预测,评分上升千3左右。
  在此基础上进行模型优化,根据特征重要性进行特征交叉,将类别与连续值之间进行GroupBy聚合操作,又新产生180个新特征,再次按照之前的特征选择步骤,选择需要的特征,然后训练LightGBM模型及预测,预测评分上升千5左右。
  3 基于分布式PySpark的机器学习算法
  Spark中提供了Ml、MLlib机器学习库,使分布式机器学习变得可扩展和容易。在较高层次上,Spark提供了以下工具,ML算法:常见的学习算法,如分类、回归、聚类和协作过滤;特征化:特征提取、转换、降维和选择;管道:构建、评估和调整ML管道的工具;持久性:保存和加载算法、模型和管道;实用程序:线性代数、统计学、数据处理等。
  本案例基于Spark大数据集群进行分布式机器学习实战,从PySpark机器学习特征工程库 pyspark.ml.feature导入HashingTF、IDF,其中词频TF代表一个词语出现的次数,逆词频IDF代表一个词语的重要程度,利用TF/IDF工具对客户访问应用名称、客户访问的主机URL构建文本特征,采用Pyspark的VectorAssembler工具将文本特征、数值特征、类别特征、时间特征集成为特征向量,使用Pyspark机器学习模型(朴素贝叶斯、决策树、随机森林、逻辑回归)进行训练与预测,预测客户是否购买全屋wifi产品。
  4 模型预测结果
  构建LightGBM、朴素贝叶斯、决策树、随机森林、逻辑回归模型,分别对测试集按指定的設备顺序生成预测结果,提交官网平台进行评分,此次竞赛采用F1作为评分标准,各模型评分如下:
  表1 各模型评分
  算法模型 评分
  LightGBM模型 350559.4
  朴素贝叶斯 329393.22
  决策树 318355.36
  随机森林 343471.21
  逻辑回归 339417.16
  OneVsRest 339417.16
  5 结论及展望
  本文对基于大数据的智慧产品潜在客户挖掘内部竞赛的案例进行了研究,对数据集的文本特征向量进行了探索。在未来,自然语言处理NLP将成为人工智能一个重要的发展领域,对自然语言处理的研究将充满机遇和挑战。
  6 致谢
  感谢中国电信上海公司组织“翼码当先”软件人才竞赛活动,基于内部大数据工作台提供海量数据,利用大数据工作台的工具和能力进行数据预处理和建模开发,各参赛者基于在线编程环境顺利完成比赛。
  参考文献
  [1]《Spark大数据商业实战三部曲》第二版:清华大学出版社,王家林、段智华
  [2]王家林 五节课内从零起步(无需数学和Python基础)编码实现AI人工智能框架电子书
其他文献
摘 要:对于水利工程施工而言,混凝土裂缝问题是一个常见的问题,该问题的出现往往会导致水利建筑物受到很大影响,使其抗渗能力无法满足使用需要,这对于水利建筑的使用是非常不利的。此外,混凝土裂缝问题还会使钢筋出现锈蚀问题,此问题的出现会进一步引发混凝土的碳化,除了会对水利建筑的承载力造成不利影响外,还将大大降低工程整体质量。因此,为了确保实际施工质量,一定要在水利工程的施工过程中,通过科学、合理的混凝土
期刊
摘 要:教育现代化的发展脚步不断加快,各种新的技术设备、平台开始为教师所用,在立足课堂的同时也拓展出了多个教学的空间,大大补充了传统教学在时间、空间、内容等方面的不足。应课改要求,也为了响应时代的号召,高中语文写作教学开始利用微信这个人人都熟知的平台,本文将对具体的应用策略进行阐述。  关键词:微信;高中;写作教学;应用策略  引言  高中生生活在一个充斥着网络和移动设备的年代,微信是他们最常用的
期刊
摘 要:现阶段,急倾斜特厚煤层开采工作面当中,井瓦斯涌出量预测方式还存在一定问题有待解决,并且经过我们的调查与分析,可以了解到,在我国各地区急倾斜特厚煤层开采工作当中,常用的分源预测法也是存在一定不足的。近年来,人们通过瓦斯质量守恒定律,研究出了巷道瓦斯排放影响系数的计算方式。从而通过对邻近层瓦斯涌出量预测计算方式的思考,建立了开采分段下部卸压煤体瓦斯涌出量预测相关的数学表达式,在这样的情况下,急
期刊
摘 要:数字出版给出版行业带来了巨大的冲击和变革,传统出版如何应对冲击、适应变革,出版社如何图生存、谋发展是摆在广大出版人面前的现实问题。本书通过分析行业面临的发展形势、自身的优势和不足、读者对出版物的需求,指出了傳统出版做好数字化转型应该着重发力的三个方向,即做好CP(内容提供商)、做强SP(服务提供商)和打造大IP(知识产权)。  关键词:数字出版;CP(内容提供商);SP(服务提供商); I
期刊
摘 要:本文分析了目前房屋建筑施工混凝土常见质量问题,从加强采购质量控制、原材料质量控制、配合比质量控制、搅拌质量控制等方面提出了解决措施,旨在保证房屋建筑施工混凝土质量,满足人们对房屋建筑的需求。  关键词:房屋建筑施工;混凝土;质量控制  混凝土在房屋建筑施工中应用比较广泛,是一种重要的建筑材料,其质量影响因素众多,如施工现场工艺技术条件、机械设备作业、气候及人为因素等,若是忽视对混凝土施工质
期刊
摘 要:在建筑物的节能设计过程中,设计人员需要对现有的行业标准进行考核,在深入分析建筑物具体的使用情况后,合理进行建筑节能设计方案的选择。此外,建筑节能要在遵循经济性、环保性基础上,加强对基础资源和可再生利用资源的使用,做好真正意义上的建筑节能设计。  关键词:建筑设计;节能设计  1 建筑节能设计的概念  建筑节能设计是提高住宅建筑能源利用效率的一种设计理念,从积极方面角度上理解就是指提高能源利
期刊
摘 要:控制运营成本支出对于高速公路的项目运营管理来说是非常有必要的,因为它会影响到整个项目的经济收益情况,还会关乎到高速公路的建设发展。一般来说,高速公路的运营成本主要由养护成本、财务费用、路产折旧、征收业务等共同组成,本文对高速公路运营成本的影响因素进行概述,并结合实际情况提出控制对策,希望会对未来的高速公路发展有推动作用。  关键词:高速公路;运营成本;影响因素;控制对策  一、引言  随着
期刊
摘 要:客家人是中原汉族群体南迁的一支民族,拥有非常深厚的文化底蕴。客家民俗舞蹈作为客家文化的一部分,能够利用肢体语言动作将客家人的生活、习惯、宗教信仰等进行生动形象的表达。然而,原生态的客家民俗舞蹈正在随着时代的发展变迁逐渐走向衰落,客家民俗舞蹈在新的环境中日渐失去本真的形态。如何在新时代下让客家民俗舞蹈重新焕发生机,是迫在眉睫急需解决的课题。  关键词:新时代;客家文化;民俗舞蹈  引言  中
期刊
摘 要:随着我国人民生活水平的不断提高,国家及相关部门对于给给排水工程开始重视起来,对于给排水工程的相关工作开始进行部署,认知给排水工程对于城市的发展来讲有着至关重要的作用,给排水系统的不断完善,才使得城市的不断发展与进步,所以,给排水工程在整个城市的发展进程中所起到的作用是不可替代的,这也就要求市政在给排水工程中安全施工需要不断地加强与完善,从而进一步推动城市的发展。  关键词:市政;给排水工程
期刊
文化旅游产业,是当下出现并流行的一个名词。众所周知,文化是旅游的灵魂,旅游是文化的载体,旅游和文化密不可分。各地旅游发展的实践证明,打好“文化牌”可以有力助推旅游产业大发展大繁荣,推进全国经济特别是地方经济快速发展。  笔者所在的辽宁省本溪满族自治县小市镇地处长白山余脉北温带气候带,属“八山一水一分田”的地貌结构,四季分明,气候宜人,森林覆盖率87%,是辽宁省最重要的水源涵养地,资源丰富、风光旖旎
期刊