论文部分内容阅读
基于大数据分析的商旅计划决策是掌控差旅动态、制定差旅规范的重要组成部分。基于国网商旅信息数据,针对出差过程中出行方式的优化选取、酒店住宿的个人喜好,构建一种用户画像框架技术,实现快速、准确识别敏感客户群体。首先针对用户不同特性采用双通道建模方式预测用户敏感程度;其次围绕业务审批、差旅控制、酒店评价、时间特征、数值特征等类型刻画用户,构建用户多源特征体系;最后充分利用商旅数据多源性,创建基于双层Xgboost的多视角融合模型,提升分类精确率,并通过对比实验验证方法的有效性。国网商旅客户信息是基础数据,用户每次出行均针对目标地点的变化,变更出行方式,根据目标地点按照目标距离、星级、评价、舒适度等选择推荐酒店。通过统计发现,全年查阅标准次数少的用户较多,相应敏感度占比较小,将其定义为低活跃度用户;而多次查阅标准用户较少,但敏感度占比较大,将其定义为高活跃度用户。低活跃度用户与高活跃度用户特性存在明显差异,主要表现在:(1)用户画像刻画角度不同。对于低活跃度用户,重点刻画、关注标准关键内容;而对于高活跃度用户,系统重点计算搜索频率和浏览时间等相关联系等;(2)用户特征构造方式不同。低活跃度用户仅有极少的搜索记录,相应数据项目取值较少,而高活跃度用户则对应多条相应数据记录,同一项目对应多个取值信息。围绕国网商旅客户信息建立业务审批信息、差旅控制信息、财务结算信息3个不同维度构建特征群,围绕用户类别特征、数值特征、聚类特征、文本特征、时间特征、统计特征等多种特征类型对用户敏感度进行刻画。以多种视角的方式构建数据特征,构建国网商旅用户信息表多源特征体系。提出一种基于双层Xgboost的多视角融合模型,有效利用多源特征,解决高维特征的问题,Xgboost是一种经过优化的提升树模型,具有任务通用性高、运行速度快的优点[6],广泛应用于数据挖掘和机器学习中。数据采用国网商旅2018年全年用户数据,包括业务审批、差旅控制、票务预订、酒店评价等信息。计算数据表中字段与用户敏感度之间的基尼指数,结合用户数据完整性因素,最终确定差旅管理、预算控制、报销流程3类信息的业务类型编码、单位编码、预定方式、结算方式等字段用于特征提取。选用Fl-score作为结果评价指标,F1-score是分类问题的一个衡量指标,是精确率(precision)和召回率(recall)的调和平均数,只有精确率和召回率两者都取较高数值时F1-score才能得到较高得分。首先计算precision,precision为被分类器判定为正例的正样本的比重;recall(召回率/查全率)指被预测为正例的占总的正例的比重。最后计算各个类别下的F1-score平均值,得到最终评测结果。在分析和挖掘国网商旅用户数据的基础上,提出构建用户画像多视角融合框架模型,该框架可以快速、准确识别商旅敏感用户。通过分析商旅用户特征,采用双通道建模算法对低活跃度用户与高活跃度用户分别预测,提出多种特征数据提取方法,构建商旅用户多源特征体系;提出了基于双层Xgboost的多视角融合模型解决具有多源特征的高维特征问题,并通过实验证明了方法的有效性,为精确识别商旅敏感用户提供了重要的参考依据。