论文部分内容阅读
随着信息时代的潮流席卷而来,硬件设备和软件技术也飞速发展,从前在线下交易的大量数据如今已经能够存储在线上服务器中高效的进行存取处理和查询。通过及时和精确地分析大量用户基础数据和行为数据,挖掘用户行为模式得到的有用信息和知识,支撑着商业化服务的推进和完善。其中用户画像作为描绘目标用户,关联用户诉求与产品设计的重要工具,已经在各个行业和领域得到了广泛的应用,本文以网约车行业为背景,为了解决跨业务线的高潜力用户挖掘问题,针对不同业务线的用户进行画像,根据用户历史行为模式,判断未来的发展趋势。利用用户的基本信息和行为信息,抽象成特征,探索了普通的机器学习算法、深度学习与迁移学习三种模型在本问题上的表现及性能,并且结合人群画像分析系统的设计与实现,令模型产出的用户标签可以系统的、可视化的展示给公司内部成员。实验证明这几种方法可以准确的判断出高潜力用户群体,使得企业可以有针对性的做营销活动,有效地降低了推广宣传的成本,提升了投资回收率。本文主要工作内容和创新点如下:1)在XGBoost模型中,本文提出了一种利用woe值来编码非数值特征并且划分等级的特征处理方法,将稀疏且不定长的非数值特征对应到固定个数个等级中,生成新的map类型的特征,实验结果表明这种非数值特征处理方法对模型的效果有明显促进作用,且模型已上线,成为筛选高质量人群的有力工具。2)在神经网络实验中,本文利用深层神经网络(DeepNeuron Network,DNN)以及深度交叉网络(Deep&CrossNetwork,DCN)进行实验对比,不断调整网络结构以及所选取特征直至最优。3)本文采取基于特征的迁移学习方法与基于参数的迁移方法,提出迁移深度交叉网络(Transfer-Deep&CrossNetwork,TDCN),预训练几个稀疏的类别型的特征,将嵌入矩阵参数更新至最优,将权重矩阵及嵌入矩阵迁移到深度交叉网络中,分别尝试了 frozen和fine-tuning权重矩阵参数的方式进行训练,实验表明采用预训练过的特征继续微调比普通的神经网络的ROC曲线下面积(Area Under roc Curve,AUC)提高了百分之三。4)参与人群画像分析系统的设计与实现,助力精准营销与数据分析,且该系统已在公司内部成功上线。