论文部分内容阅读
摘要:随着数据科学的快速发展,基于大数据分析对用户进行精准营销,通过已知用户的数据分析建模对未来用户的选择行为进行预测,已经成为提升互联网营销效果、实现精准营销的重要方法。本文基于某短视频运营公司的新增关注用户数据,对该公司视频直播号的用户关注选择行为进行了建模分析,结果表明多项Logit模型通过了预测验证,体现出了良好的预测能力。
关键词:大数据分析;用户选择行为预测;Logit模型
1、论文的背景与意义
在商务活动中,通过理论方法的研究改进营销效果,是企业营销管理者普遍关注的内容。其中利用已知用户的数据分析归纳出目标用户群的特征,进而由该特征高效地找到潜在用户,由已知推导未来。这种解决现实营销问题的方法本质上就体现了逻辑回归分析的思想。
在数据科学快速发展的今天,随着商务和营销活动可获取的数据越来越丰富,更好的利用大数据的分析预测在营销研究领域产生了越来越多的探索机会。大数据以更低的成本解决了大样本量的问题,并能方便地获得更丰富的数据维度。与问卷调查相比,更大的数据样本和丰富的数据维度对于揭示事物或现象的发展与各个变量之间变化的规律,并把这种规律的作用延伸到未来,从而对其未来的数据与发展做出更精准地预测。
本文关注互联网视频直播领域的营销活动。随着视频直播的快速发展,对用户进行更精准的营销,通过已知的用户数据分析建模已经成为提升线上营销效果的重要方法。本文基于某短视频运营公司的新增关注用户数据,对该团队视频直播号的用户关注选择行为进行分析。运用了多项Logit模型理论及方法,将4个视频直播号新增关注用户的年龄、性别、收入水平的变量引入模型,并建立了可以解释用户选择行为的多项Logit模型。
Logit模型,又称Logistic回归模型或逻辑回归模型,是20世纪五十年代末由Luce通过研究IIA特性首次导出。作为目前应用最广泛的离散选择模型,Logit模型在心理学、社会学、经济学、市场营销以及及交通领域得到了广泛的应用,并衍生发展出了其他模型,形成了完整的离散选择模型体系,如Probit模型、NL模型(Nest Logit model)、Mixed Logit模型等。美国芝加哥大学的James J.Heckman和Daniel L.McFadden由于他们在离散选择模型等微观计量经济学领域的重大贡献,获得了2000年的诺贝尔经济学奖。Logit模型被广泛应用于市场营销研究起始于1977年,Green、Carmone和Wachspresss首次系统的介绍了运用Logit模型分析市场营销研究中的定性数据,以模拟用户的商品选择决策过程和最终结果。此后越来越多的市场营销研究者使用Logit模型来模拟市场营销研究中的问题:Peter M、Guadanni和John(1983)用多项Logit模型拟合零售扫描数据研究用户对咖啡品牌的选择;Gary、Russell和Petersen(2000)运用多项Logit模型分析用户在互补、替代和独立的商品种类之间的选择问题;Zsolt S’ndor和Michel(2005)运用蒙特卡罗(Monte Carlo)方法和贝叶斯(Bayesian Model)模型对Logit模型中用户反应的异质性(Heterogeneity)问题的解决。
国内对Logit模型的研究更多的是应用于交通规划、财务金融信用风险及医疗卫生领域,对线上营销领域的研究相对较少,尤其是大数据营销领域进行离散选择模型应用研究的文献寥寥无几。在2020年6月6日对百度学术的文献检索中[1],只有3篇和大数据营销相关的Logit模型论文,只有11篇和精准营销相关的Logit模型论文。这些文献多偏重于介绍模型方法、大数据推荐算法及采用公开及实验数据进行模拟计算。本文采用实地收集数据、建立模型、通过多项Logit模型对视频直播号的线上营销活动进行实证分析研究,不仅对于指导企业营销决策具有现实意义,对于理论界扩展该模型的研究领域也有抛砖引玉的作用。
2、数据的来源与介绍
本文数据来源于某视频直播公司2019年12月、2020年3月、2020年5月每個月连续3天(共9天)的4个直播号新增用户数据,跨年跨月选取数据是为了保证样本的随机性。其中将2019年12月份和2020年3月份的6天数据随机抽取50%合并后的数据用于多项Logit模型的构建和参数估计,将2020年5月份的3天数据作为模型的实验数据,用于评价模型的预测质量。在实际建模中,潜在用户通过推荐页面进入视频直播号观看直播,并最终完成对直播号的关注为一次有效观测。由于本文只研究通过用户数据分析和建模提升精准营销的效果,不探讨内容或服务的运营优化,所以不记录观看直播后未关注直播号的流失用户。建模和参数估计共使用了108672个有效观测,验证数据使用了125117次有效观测。由于疫情之后直播用户比疫情之前的增速提升了近20%,所以前6天的50%数据比后3天的数据少。虽然9天的数据量不大,但该样本跨年跨月采集,所以足够保证模型的建立和验证。
3、数据处理和描述统计
运营公司的4个视频直播号都在快手直播平台,但带货商品存在差异化,用户群体为快手平台的同质用户,但用户特征值存在差异,所以可以根据每个直播号的用户特征数据构建用户的选择模型,以实现对未来潜在用户的数据化精准营销。4个视频直播号的编号和类型为:1、特价扫货类,2、进口商品类,3、好货拼购类,4、精品优选类。由于课程论文的时间仓促,本论文选取的用户变量包括性别、年龄、收入水平3个变量。本文及图表中product代表包含编号为1、2、3、4的4个直播号,gender代表对应直播号关注用户的性别(1代表男性、0代表女性),age代表关注用户的年龄,income代表关注用户的收入水平。本文使用的数据分析软件为SPSS。
首先,由表1和图1可以看出4个直播号的用户性别分布存在差异。比如编号为1的直播号为特价扫货类的,女性用户明显多于男性用户;编号为2的直播号为进口商品类的,男性用户多于女性用户。 其次,由图二可以看出四个直播号的年龄分布各有特点,编号为1的特价扫货类直播号用户群体相对年轻,编号为3的好货拼购类直播号用户群体相对年长。
再次,由图三可以看出特价带貨的直播号1的用户群平均收入相对最低,该直播号的用户群体也最年轻。平均收入最高是的进口商品类的直播号2的用户群,该用户群体男性用户更多。
最后,这三个解释变量之间不存在高度的相关关系,也就是说它们之间不存在多重共线性问题。[2]
4、多项Logit模型
Logit模型是被广泛用于研究行为主体选择过程的计量经济模型。目前也是主流的大数据精准营销建模方法。Logit模型基于因果关系推导用户对产品的选择过程和结果,即用户的一个行为或者选择结果出现一定是由许多共同作用造成的。那么如果我们能够洞悉更多的主要因素及其产生作用的机制,我们就能在一定条件下有更高概率准确地预测这种行为或选择结果再次发生。多项Logit模型来源于随机效用的概念,[3]以效用函数为出发点,认为用户(i)在理性的经济选择行为下,对于可供选择集合C会选择能使其效用最大化的视频直播号(j)。因此,用户的效用函数可表示为:
其中Vij为用户i选择直播号j的可观测效用。既可以包括直播号j本身的属性,也包括用户的个人特征;随机扰动项εij是无法观测到的那部分效用,通常我们假设εij为独立同分布的随机变量。对于系统效用,通常假设Vij是直播号j和用户i相关属性变量的线性函数:
其中,xij为用户选择方案的解释变量向量,βk为待估计的解释变量的系数向量。按照效用最大理论,用户i选择直播号j的概率可以表示为下式,βk由极大似然估计法估计:
在实际运用中,我们一般把用户对直播号替代物(比如直播号k)的选择作为参照系,然后把用户对其他直播号的选择概率与之相比,通过公式变换得到以下Logit模型公式:
从上面对Logit模型原理的介绍可以看出,该模型对于本文的视频直播号用户选择研究,可以建立以下精准营销模型。本文假设效用函数的估计与直播号的4个分类有关,因此可以产生3组效用方程和相应的3组系数值。本文假定编号为“4的精品优选类”视频直播号为基准组可得如下方程组。
其中P1/P4为相对于基准组(4、精品优选类直播号)用户选择关注编号为1的特价扫货类直播号的概率;P2/P4为相对于基准组用户选择关注编号为2的进口商品类直播号的概率;P3/P4为相对于基准组用户选择关注编号为3的好货拼购类直播号的概率。
5、视频直播号选择行为的模型分析
依据前述的数据资料,对多项Logit模型进行模型拟合检验、似然比检验、参数估计和参数检验。
由表2可以看出,最后一列的显著性小于0.05,说明模型具有统计意义,通过检验。此外,依次列出的3个伪R方值最高0.859,说明4个直播号种类不可衡量效用彼此独立,不会相互影响,模型对原始变量变异的解释程度较好,只有一小部分信息无法解释,拟合度比较优秀。
由表3可以得出模型中的效应变量包括用户的年龄、性别、收入水平对应的显著性值都小于0.05,这说明以上各效应变量对模型构成都有显著贡献。
由表4可以看出,以编号为4的精品优选类直播号作为基准组产生的3组效用方程系数值显著性都小于0.05通过检验,模型的效应方程组拟合度比较好。
方程组中x1为用户的年龄(age)、x2为收入水平(income)、x3为性别(gender)。本文涉及数据中用户的年龄集中在19-43岁的区间,所以预测方程中x1年龄的取值范围也应该在19-43之间。x2收入水平为月薪,其的取值范围在2500-30000元之间,水平差异梯度为500元。x3性别的取值范围为1或者0,1代表男性、0代表女性。
6、模型预测
对于以上建立的模型,最重要的一个用途就是用于对潜在用户选择行为的预测,从而实现基于大数据分析的精准营销。接下来我们通过准备好的125117条验证数据进行预测检验,预测检验可以验证最终得到的对数多项logit模型能否很好地预测用户在快手平台对4个直播账号的选择行为,即对于任何一个视频直播号来说,模型能否较准确的预测潜在用户选择哪个直播号的概率最大。以满足大数据精准营销对目标用户的精准选取。预测检验的结果如下表:
由表5可以看出模型在预测编号为2的直播号用户选择倾向上准确率最高,达到了87.1%,编号为1的直播号预测准确率也达到了84.0%,其他两项预测略低,总体预测准确率79.1%,接近80%,整体表现良好。由于时间仓促,后续可以获取更多变量和更丰富的数据来改进模型,总体来看本文所用数据较为适合Logit模型进行建模分析以及进行用户行为选择预测。
7、结论
本文根据某短视频运营公司直播号的新增关注用户数据,引入有关用户年龄、收入水平和性别的效应变量,建立了可以解释直播号关注用户在选择4个直播号行为的对数多项Logit模型。模型显示:较年轻的、收入水平不高的女性用户关注1号直播号的概率最大;收入水平较高的男性用户关注2号直播号的概率最大。每个直播号对于特定的用户有相对最高效应,模型效应方程选取的3个变量对模型都有显著的贡献率,变量选取合理。该模型通过验证数据的预测验证体现出了良好的预测能力。本文采用的研究方法可以推广到大数据背景下其他领域的线上行为选择研究。不足是采用数据变量较少,数据来源有局限性,模型也仅是最基本的多项logit模型。选取更丰富和宽泛的数据源,引入更多的效应变量,应用合理的嵌套选择模型并提升预测精度是进行该选择行为研究未来努力的方向。
参考文献
[1]互联网文档资源.东莞高校外语专业社会服务与本地跨境电商行业对接研究.http://www.xzlunwen.com/20180219/907473.html.2017
[2]符雯.效用理论在国内交通运输领域的应用综述[J].数学理论与应用.2017-11-18
[3]互联网文档资源.TMT特征及其异质性与企业绩效关系究.http://www.xzlunwen.com/20171123/841676.html.2017
关键词:大数据分析;用户选择行为预测;Logit模型
1、论文的背景与意义
在商务活动中,通过理论方法的研究改进营销效果,是企业营销管理者普遍关注的内容。其中利用已知用户的数据分析归纳出目标用户群的特征,进而由该特征高效地找到潜在用户,由已知推导未来。这种解决现实营销问题的方法本质上就体现了逻辑回归分析的思想。
在数据科学快速发展的今天,随着商务和营销活动可获取的数据越来越丰富,更好的利用大数据的分析预测在营销研究领域产生了越来越多的探索机会。大数据以更低的成本解决了大样本量的问题,并能方便地获得更丰富的数据维度。与问卷调查相比,更大的数据样本和丰富的数据维度对于揭示事物或现象的发展与各个变量之间变化的规律,并把这种规律的作用延伸到未来,从而对其未来的数据与发展做出更精准地预测。
本文关注互联网视频直播领域的营销活动。随着视频直播的快速发展,对用户进行更精准的营销,通过已知的用户数据分析建模已经成为提升线上营销效果的重要方法。本文基于某短视频运营公司的新增关注用户数据,对该团队视频直播号的用户关注选择行为进行分析。运用了多项Logit模型理论及方法,将4个视频直播号新增关注用户的年龄、性别、收入水平的变量引入模型,并建立了可以解释用户选择行为的多项Logit模型。
Logit模型,又称Logistic回归模型或逻辑回归模型,是20世纪五十年代末由Luce通过研究IIA特性首次导出。作为目前应用最广泛的离散选择模型,Logit模型在心理学、社会学、经济学、市场营销以及及交通领域得到了广泛的应用,并衍生发展出了其他模型,形成了完整的离散选择模型体系,如Probit模型、NL模型(Nest Logit model)、Mixed Logit模型等。美国芝加哥大学的James J.Heckman和Daniel L.McFadden由于他们在离散选择模型等微观计量经济学领域的重大贡献,获得了2000年的诺贝尔经济学奖。Logit模型被广泛应用于市场营销研究起始于1977年,Green、Carmone和Wachspresss首次系统的介绍了运用Logit模型分析市场营销研究中的定性数据,以模拟用户的商品选择决策过程和最终结果。此后越来越多的市场营销研究者使用Logit模型来模拟市场营销研究中的问题:Peter M、Guadanni和John(1983)用多项Logit模型拟合零售扫描数据研究用户对咖啡品牌的选择;Gary、Russell和Petersen(2000)运用多项Logit模型分析用户在互补、替代和独立的商品种类之间的选择问题;Zsolt S’ndor和Michel(2005)运用蒙特卡罗(Monte Carlo)方法和贝叶斯(Bayesian Model)模型对Logit模型中用户反应的异质性(Heterogeneity)问题的解决。
国内对Logit模型的研究更多的是应用于交通规划、财务金融信用风险及医疗卫生领域,对线上营销领域的研究相对较少,尤其是大数据营销领域进行离散选择模型应用研究的文献寥寥无几。在2020年6月6日对百度学术的文献检索中[1],只有3篇和大数据营销相关的Logit模型论文,只有11篇和精准营销相关的Logit模型论文。这些文献多偏重于介绍模型方法、大数据推荐算法及采用公开及实验数据进行模拟计算。本文采用实地收集数据、建立模型、通过多项Logit模型对视频直播号的线上营销活动进行实证分析研究,不仅对于指导企业营销决策具有现实意义,对于理论界扩展该模型的研究领域也有抛砖引玉的作用。
2、数据的来源与介绍
本文数据来源于某视频直播公司2019年12月、2020年3月、2020年5月每個月连续3天(共9天)的4个直播号新增用户数据,跨年跨月选取数据是为了保证样本的随机性。其中将2019年12月份和2020年3月份的6天数据随机抽取50%合并后的数据用于多项Logit模型的构建和参数估计,将2020年5月份的3天数据作为模型的实验数据,用于评价模型的预测质量。在实际建模中,潜在用户通过推荐页面进入视频直播号观看直播,并最终完成对直播号的关注为一次有效观测。由于本文只研究通过用户数据分析和建模提升精准营销的效果,不探讨内容或服务的运营优化,所以不记录观看直播后未关注直播号的流失用户。建模和参数估计共使用了108672个有效观测,验证数据使用了125117次有效观测。由于疫情之后直播用户比疫情之前的增速提升了近20%,所以前6天的50%数据比后3天的数据少。虽然9天的数据量不大,但该样本跨年跨月采集,所以足够保证模型的建立和验证。
3、数据处理和描述统计
运营公司的4个视频直播号都在快手直播平台,但带货商品存在差异化,用户群体为快手平台的同质用户,但用户特征值存在差异,所以可以根据每个直播号的用户特征数据构建用户的选择模型,以实现对未来潜在用户的数据化精准营销。4个视频直播号的编号和类型为:1、特价扫货类,2、进口商品类,3、好货拼购类,4、精品优选类。由于课程论文的时间仓促,本论文选取的用户变量包括性别、年龄、收入水平3个变量。本文及图表中product代表包含编号为1、2、3、4的4个直播号,gender代表对应直播号关注用户的性别(1代表男性、0代表女性),age代表关注用户的年龄,income代表关注用户的收入水平。本文使用的数据分析软件为SPSS。
首先,由表1和图1可以看出4个直播号的用户性别分布存在差异。比如编号为1的直播号为特价扫货类的,女性用户明显多于男性用户;编号为2的直播号为进口商品类的,男性用户多于女性用户。 其次,由图二可以看出四个直播号的年龄分布各有特点,编号为1的特价扫货类直播号用户群体相对年轻,编号为3的好货拼购类直播号用户群体相对年长。
再次,由图三可以看出特价带貨的直播号1的用户群平均收入相对最低,该直播号的用户群体也最年轻。平均收入最高是的进口商品类的直播号2的用户群,该用户群体男性用户更多。
最后,这三个解释变量之间不存在高度的相关关系,也就是说它们之间不存在多重共线性问题。[2]
4、多项Logit模型
Logit模型是被广泛用于研究行为主体选择过程的计量经济模型。目前也是主流的大数据精准营销建模方法。Logit模型基于因果关系推导用户对产品的选择过程和结果,即用户的一个行为或者选择结果出现一定是由许多共同作用造成的。那么如果我们能够洞悉更多的主要因素及其产生作用的机制,我们就能在一定条件下有更高概率准确地预测这种行为或选择结果再次发生。多项Logit模型来源于随机效用的概念,[3]以效用函数为出发点,认为用户(i)在理性的经济选择行为下,对于可供选择集合C会选择能使其效用最大化的视频直播号(j)。因此,用户的效用函数可表示为:
其中Vij为用户i选择直播号j的可观测效用。既可以包括直播号j本身的属性,也包括用户的个人特征;随机扰动项εij是无法观测到的那部分效用,通常我们假设εij为独立同分布的随机变量。对于系统效用,通常假设Vij是直播号j和用户i相关属性变量的线性函数:
其中,xij为用户选择方案的解释变量向量,βk为待估计的解释变量的系数向量。按照效用最大理论,用户i选择直播号j的概率可以表示为下式,βk由极大似然估计法估计:
在实际运用中,我们一般把用户对直播号替代物(比如直播号k)的选择作为参照系,然后把用户对其他直播号的选择概率与之相比,通过公式变换得到以下Logit模型公式:
从上面对Logit模型原理的介绍可以看出,该模型对于本文的视频直播号用户选择研究,可以建立以下精准营销模型。本文假设效用函数的估计与直播号的4个分类有关,因此可以产生3组效用方程和相应的3组系数值。本文假定编号为“4的精品优选类”视频直播号为基准组可得如下方程组。
其中P1/P4为相对于基准组(4、精品优选类直播号)用户选择关注编号为1的特价扫货类直播号的概率;P2/P4为相对于基准组用户选择关注编号为2的进口商品类直播号的概率;P3/P4为相对于基准组用户选择关注编号为3的好货拼购类直播号的概率。
5、视频直播号选择行为的模型分析
依据前述的数据资料,对多项Logit模型进行模型拟合检验、似然比检验、参数估计和参数检验。
由表2可以看出,最后一列的显著性小于0.05,说明模型具有统计意义,通过检验。此外,依次列出的3个伪R方值最高0.859,说明4个直播号种类不可衡量效用彼此独立,不会相互影响,模型对原始变量变异的解释程度较好,只有一小部分信息无法解释,拟合度比较优秀。
由表3可以得出模型中的效应变量包括用户的年龄、性别、收入水平对应的显著性值都小于0.05,这说明以上各效应变量对模型构成都有显著贡献。
由表4可以看出,以编号为4的精品优选类直播号作为基准组产生的3组效用方程系数值显著性都小于0.05通过检验,模型的效应方程组拟合度比较好。
方程组中x1为用户的年龄(age)、x2为收入水平(income)、x3为性别(gender)。本文涉及数据中用户的年龄集中在19-43岁的区间,所以预测方程中x1年龄的取值范围也应该在19-43之间。x2收入水平为月薪,其的取值范围在2500-30000元之间,水平差异梯度为500元。x3性别的取值范围为1或者0,1代表男性、0代表女性。
6、模型预测
对于以上建立的模型,最重要的一个用途就是用于对潜在用户选择行为的预测,从而实现基于大数据分析的精准营销。接下来我们通过准备好的125117条验证数据进行预测检验,预测检验可以验证最终得到的对数多项logit模型能否很好地预测用户在快手平台对4个直播账号的选择行为,即对于任何一个视频直播号来说,模型能否较准确的预测潜在用户选择哪个直播号的概率最大。以满足大数据精准营销对目标用户的精准选取。预测检验的结果如下表:
由表5可以看出模型在预测编号为2的直播号用户选择倾向上准确率最高,达到了87.1%,编号为1的直播号预测准确率也达到了84.0%,其他两项预测略低,总体预测准确率79.1%,接近80%,整体表现良好。由于时间仓促,后续可以获取更多变量和更丰富的数据来改进模型,总体来看本文所用数据较为适合Logit模型进行建模分析以及进行用户行为选择预测。
7、结论
本文根据某短视频运营公司直播号的新增关注用户数据,引入有关用户年龄、收入水平和性别的效应变量,建立了可以解释直播号关注用户在选择4个直播号行为的对数多项Logit模型。模型显示:较年轻的、收入水平不高的女性用户关注1号直播号的概率最大;收入水平较高的男性用户关注2号直播号的概率最大。每个直播号对于特定的用户有相对最高效应,模型效应方程选取的3个变量对模型都有显著的贡献率,变量选取合理。该模型通过验证数据的预测验证体现出了良好的预测能力。本文采用的研究方法可以推广到大数据背景下其他领域的线上行为选择研究。不足是采用数据变量较少,数据来源有局限性,模型也仅是最基本的多项logit模型。选取更丰富和宽泛的数据源,引入更多的效应变量,应用合理的嵌套选择模型并提升预测精度是进行该选择行为研究未来努力的方向。
参考文献
[1]互联网文档资源.东莞高校外语专业社会服务与本地跨境电商行业对接研究.http://www.xzlunwen.com/20180219/907473.html.2017
[2]符雯.效用理论在国内交通运输领域的应用综述[J].数学理论与应用.2017-11-18
[3]互联网文档资源.TMT特征及其异质性与企业绩效关系究.http://www.xzlunwen.com/20171123/841676.html.2017