论文部分内容阅读
随着互联网、智能手机的普及和020商业模式在近年来的不断成熟,中国内地的020外卖市场也发展迅速。在经历了粗放式的吸引流量和规模扩张之后,大部分020外卖平台的运营逐渐平稳,并且开始不断优化自身的运营策略,提高运营效率进而提升顾客满意度。然而面对体量庞大的顾客和订单,平台的运营和资源配置是一个关键问题。在当前大数据背景下,如果平台能够加深对顾客的了解,将不同类的顾客分开(如哪些顾客相对来说更有价值)进行精准营销,进而对不同类顾客的某些行为做出预测,就可以增强020外卖平台运营系统的准确性、预见性和鲁棒性。本文针对数据驱动的020外卖平台高价值顾客识别与需求预测问题,在介绍其背景和对其进行定性分析的前提下,将020外卖平台的高价值顾客识别问题抽象为数据挖掘中的聚类问题,将顾客的需求量预测问题抽象为数据挖掘中的回归预测问题。在得到两个具体的科学问题:基于聚类的020外卖平台顾客划分与高价值顾客识别、基于机器学习模型的020外卖平台不同类顾客需求预测之后,分别对两个问题从特征(属性)构造理论与方法、相关算法和模型对本文的两个科学问题做了系统的文献回顾,梳理了目前相关或相似研究所用的理论、方法与模型并评价了其优缺点。通过回顾现有文献总结出以下三点结论:(1)目前有关020外卖平台顾客类别划分与需求预测的研究较少;(2)许多文献均依据客户关系管理中的RFM模型构造顾客特征进而通过聚类分析得到顾客类别划分;(3)支持向量回归模型在相似研究(如能源需求预测和服务需求预测)中具有较好的表现。随后,在获取大连市一个真实020外卖平台数据集的基础上,开展了顾客类别划分和各类顾客(尤其是高价值顾客)需求预测的研究,具体工作内容包括:(1)针对实际数据,基于RFM模型与优惠信息提出了 RFMD模型构造顾客特征变量,通过模糊C-均值(Fuzzy C-Means)算法对020外卖平台顾客实现聚类,分析了各类顾客的消费行为模式特征并基于RFMD模型评估各类顾客的价值,识别了价值相对较高的顾客群体;(2)提出一类新型无核二次曲面支持向量回归模型:模糊二次曲面支持向量回归(Fuzzy Quadratic Surface Support Vector Regression,Fuzzy QSSVR),并将其应用于020外卖平台高价值顾客需求预测,该模型克服了传统有核支持向量回归核函数选择试错性强和模型黑盒化等缺陷,并且具备可解释性;(3)针对各类不同顾客(尤其是高价值顾客),统计了各类顾客每天午间高峰时段的实时需求量并构造了对应的特征变量,进而将其输入线性回归、有核支持向量回归、神经网络和本文新提出的Fuzzy QSSVR模型进行预测实验,对比了各模型对于高价值顾客需求预测的表现。本文的主要结论包括:(1)基于“RFMD”模型构造的020外卖平台顾客聚类特征变量:最近消费时间间隔和订单数(R)、月均订单数(F)、平均每单金额(M)和平均每单优惠金额占比(D)对于顾客划分和高价值顾客的识别具有较好的效果;结合使用模糊C-均值(Fuzzy C-Means)算法可以将不同消费水平高低的顾客分开,分别得到了 5类不同的顾客,其中L1、L2两类顾客为优惠驱动型顾客,L4和L5两类顾客为高价值顾客;(2)对于020外卖平台午间高峰时段的顾客需求量实时预测问题,对于一定时间区段内的顾客需求量,以其前序时段内的活跃商户与商圈数量、订单的平均优惠力度和平均额外成本占比、是否雨雪天气以及该时间区段距高峰时段起点的时间间隔作为特征变量,输入经典的预测模型(线性回归、支持向量回归和神经网络)可以对顾客需求量产生较好的预测效果;(3)对于020外卖平台高价值顾客的需求预测问题,本研究提出的Fuzzy QSSVR模型适用于该问题。在克服了传统支持向量回归依赖核函数拟合非线性数据的缺陷的前提下,对比其他经典的预测模型,Fuzzy QSSVR的优势主要包括:较高且较稳定的精度、参数寻优相对容易和模型可解释性良好三个优势,对于高价值顾客的实时需求预测是一类优秀的模型。此外,Fuzzy QSSVR在实际预测场景中还有其他实用价值:首先,由于其小样本数据环境下表现较好且模型易于可视化的特性,可以被用来在小样本条件下做二次多项式特征筛选,进而辅助特征工程;此外,该模型参数调节的复杂度较低,且对计算机性能无特别的要求,在实践中更易于应用。