论文部分内容阅读
随着4G网络的普及以及互联网的快速发展,电信运营商联合其他公司推出了各种各样的优惠活动吸引用户。这些活动在吸引越来越多新用户入网的同时也导致了老用户加速离网,这种加速离网的现象已经引起了业界的广泛重视。如何在用户离网之前准确预测出用户的离网倾向,从而采取一系列措施挽留用户,减少运营商损失,成为了一个研究的热点。针对电信用户的离网预测问题,业界实验了一系列的机器学习算法。由于近期深度学习技术的快速发展,越来越多的研究开始在离网预测任务中尝试各种神经网络模型。针对现有的基于神经网络的离网预测模型存在的一些问题,本文在电信运营商提供的真实用户数据上,设计构造了一种基于宽度&深度学习的神经网络框架用于离网预测。本文的工作主要有以下三个内容:1)本文提出一种基于宽度&深度学习的离网预测模型框架。加入了交叉积转换的线性模型可以有效的记忆特征间的共现关系,而神经网络则可以自动生成大量复杂的特征组合,具有更好的泛化能力。然而当神经网络的输入包含离散型特征时,可能会存在过度泛化的问题。我们在离网预测任务上借鉴宽度&深度学习的思想,线性模型作为宽度模型,神经网络作为深度模型,将两部分模型组合起来共同训练,从而将两者的优势结合。实验证明,加入了线性模型的神经网络比不加入线性模型的神经网络在PR-AUC上最高可提升5.39%。2)目前应用于离网预测任务的神经网络模型层数都比较浅,当数据量较小时可以比较好的拟合数据。然而随着数据量的增加,仍然使用浅层模型就会导致比较严重的欠拟合问题。本文使用一种较深层的卷积神经网络结构,并在卷积层中尝试加入短连接或门机制来充分拟合大量数据。本文使用的深层的神经网络与作为baseline的浅层网络相比,在PR-AUC上最高可提升72.33%。3)现有的大数据驱动的离网预测模型通常只选择一种时间粒度聚合时序特征,然后在静态特征和聚合的时序特征上探索各种机器学习算法的效果。这样的方法只考虑了模型对分类性能的影响,没有充分考虑数据的作用。本文尝试特征级融合和决策级融合两种方式来同时利用月和日两种时间粒度聚合的特征,在聚合的特征上做一系列的模型训练和模型融合,来进一步提高模型的性能。实验证明,同时进行特征级融合和决策级融合的方法在PR-AUC上最多可以比不进行任何融合的模型提升21.94%。