基于季节性ARIMA模型的移动APP用户活跃度分析

来源 :中国经贸导刊 | 被引量 : 0次 | 上传用户:shifujia
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  摘要:APP日活跃人数是一个核心的APP运营评价指标,且具有明显的周期性效应。本文通过季节性ARIMA模型对APP中的日活跃用户数进行建模分析,并基于已有历史数据进行预测能力评价。模型估计结果表明,季节性ARIMA模型能够很好地拟合APP日活跃用户数,有效地刻画了数据中的周期性特征,并对未来趋势给出了较为准确的预测结果。该预测模型可以对APP未来市场运营和营销策略的制定提供一定的数据参考。
  关键词:季节性ARIMA模型 日活跃用户数 预测分析
  一、引言
  随着移动互联网的高速发展,智能手机的日益普及,越来越多的用户开始从传统的PC端上网方式转移到了移动设备上网,手机已经成为第一大上网终端。同时,网民在手机电子商务、休闲娱乐、社交通讯等应用的使用率都在快速增长,移动互联网的快速发展带来了整个APP移动应用发展的高峰期。同时,基于移动APP的第三方数据统计平台也逐渐兴起,如Flurry、友盟,以及TalkingData,APP开发者可以根据它们提供的运营数据了解市场需求及产品运营情况。衡量APP运营的统计指标有APP启动次数、日新增用户数、用户留存率、日活跃用户数及用户付费比率等,其中APP日活跃人数始终作为一个核心的软件评价标准,它度量了该软件的受欢迎程度和未来的发展潜力,是计算用户留存率及软件收入的基础指标。每日活跃用户的变化可以反映以下信息,如趋势走向,人气波动及产品质量。因此,基于日活跃人数指标的建模分析对APP未来市场运营和营销策略的制定有着重要的指导意义。
  目前,在移动APP领域,常用的数据分析方法以描述性统计分析、聚类分析、相关性分析等静态分析方法为主,而从动态预测角度对APP运营数据进行分析的文献很少。时间序列理论中的ARIMA模型理论充分利用历史数据及其自身规律,建模简单,预测精度高,非常适合单变量时间序列动态分析,且已在诸多领域得到了广泛的应用。张勃采用ARIMA模型对甘肃省1949—2009年的生态足迹及生态承载能力进行了动态分析,并在此基础上预测了该指标2010—2015年的变化趋势。[1]芮少权等考虑高速公路月度交通量周期性特征构建了一个ARIMA预测模型。[2]张华初、林洪利用ARIMA模型建模分析了我国1978—2005年间社会消费品零售额趋势,并对其成因进行了深入剖析。[3]本文以ARIMA模型作为分析方法,选择APP中用户日活跃人数作为研究对象进行统计分析,同时由于用户日活跃人数具有明显的周期性效应,因此还需进一步考虑季节性ARIMA模型。
  二、季节性ARIMA模型
  在时间序列分析中,某些数据序列例如公司股票的每股季度收益,宏观经济中的GDP增长率、失业率等,往往会呈现一定的循环或者周期性特征,这类时间序列被称为季节性时间序列。季节性变动的周期间隔可以长至12个月、4个季度或者短至1周,这些周期性特征可能是由气候、节日、政策等因素造成。在实际分析中,季节性因素会掩盖数据序列中的真实变化原因,给研究该序列的发展趋势带来一定的阻碍。因此,有必要在数据分析过程中考虑季节性因素,范维等对宏观经济数据中运用的季节性调整方法进行了综述。一般而言,剔除季节性因素主要有两类方法:一类是直接回归建模,包括虚拟变量法,及使用含有季节因素的计量模型。例如,栾惠德,张晓峒借鉴 X—12—ARIM A 季节调整程序中的复活节模型建立了春节模型, 实证结果表明该模型能够很好地消除季节调整中的春节效应。另一类方法是两步法,即对原始数据首先进行季节性平滑处理或者移动平均,剔除含有的季节性特征,然后再对调整后的数据进行建模分析。例如,Engle处理高频数据中普遍存在的日内效应问题时采用的三次样条函数拟合方法。[4]
  由于APP数据具有明显的周效应,因此本文直接采用含有季节性因素的ARIMA模型对APP数据进行建模分析。季节性ARIMA模型与ARMA模型的思路相似,利用差分的方法剔除时间序列中的周期性特征。其中s是序列的周期,αt是白噪声序列,该模型的AR部分就是由正规差分和季节差分两部分构成,而MA部分wt 考虑滞后t期的移动平均项与滞后s期的季节移动平均项,例如wt=(1-θB)(1-ΘB7),|θ|<1,|Θ|<1,表示滞后1期的移动平均项与滞后7期的季节移动平均项的交互影响。通过估计该模型可以很好地解决季节性因素影响下ARIMA模型的建模预测问题。
  三、样本数据及实证分析
  本文数据样本采自友盟移动应用数据统计分析平台,以一款名为“利市”的财经类APP为例,该软件主要为广大投资者提供股票市场的每日要闻及公告信息。样本的时间段为2014年8月2日至2015年1月23日。为了简化讨论,暂时不考虑节假日因素带来的影响,因此本文剔除国庆和元旦期间的假日数据,剩余共计154个观测值,同时选择R语言为分析平台。图1(a)给出了样本数据的时序图,该数据图是对原数据样本中的日活跃用户数取对数后的结果,从中可以发现该序列存在线性增长的趋势,且有明显的周期性波动。具体而言,利市APP软件的日活跃用户具有明显的周效应,即在周末时段活跃用户数处于低谷,而从周一开始逐渐上升,周三附近达到本周的峰值,然后开始逐渐回落,这一现象也符合大众的新闻阅读习惯。
  令对数化后日活跃用户数为xt,图2(a)给出了xt的样本自相关函数图,其结果表明该数据具有很强的趋势相关性,因此有必要通过一阶差分去除这种相关性。同时从图2(b)中发现样本ACF存在以7为周期的循环模式,这正好是一周的天数,这一模式充分表明了周效应的影响不可忽视。图1(b)和图2(b)分别给出了一阶差分后Δxt的序列图和ACF图,可以发现差分后的序列消除了向上趋势,但是从Δxt的ACF图中仍然可以观察到滞后阶数为7时存在显著的正相关性,说明一阶差分并不能剔除数据存在的周效应。另一方面,单独对xt进行季节性处理后得到Δ7xt序列,其序列图和ACF图分别如图1(c)和图2(c)所示。经过季节性差分处理后,发现原序列的周期性特征已经明显减弱,但是一阶自相关性还是很强,且呈现缓慢衰减的态势。因此,必须通过季节性差分后再次进行差分的方式,同时处理这两类影响。图1(d)和图2(d)给出了最终处理后的数据序列图和ACF图,从图2(d)中可以发现该数据的ACF周期性特征已经消除,同时自相关性也大幅减弱。   然后对变量xt、一阶差分变量Δxt、季节性差分变量Δ7xt及季节性差分后再次差分变量Δ(Δ7xt)进行单位根检验。结果如表1所示,可以发现原始序列xt的P值为0.2128,说明拒绝存在单位根的原假设。而其他变量的单位根检验在5%显著性水平下都拒绝了原假设,说明不存在单位根。
  下面运用式(3)季节性ARIMA模型对调整后的变量进行建模分析,并检验该模型的预测效果。在这里,根据式(3)本文分别选择:
  模型1:wt=(1-θB)(1-ΘB7),
  模型2:wt=(1-θ1B-θ2B2)(1-ΘB7),
  模型3:wt=(1-θ1B-θ2B2-θ3B3)(1-ΘB7),
  模型4:wt=1-θ1B-θ2B2-θ3B3-θ4B4)(1-ΘB7)
  作为四个不同的模型进行比较,从中选出最合适的季节调整ARIMA模型,其估计结果如表2所示。
  从表2可以看出,模型3的对数似然值为166.37和AIC值为-322.74,在所有模型中其对数似然值最大且AIC值最小,同时对其残差进行检验发现,残差相关性在较长的滞后期内(Q(10)和Q(15))都是不显著的,说明其残差不具有相关性。综合上述模型评价指标,可以得出结论,模型3是所有模型中拟合最优的。图3给出了模型3的残差诊断图,图3(a)为标准化残差图,用于检验残差的iid假设,可以发现除了在9月初由于软件版本更新出现一定的异常波动现象,其他时间段都较为平稳。图3(b)为残差的ACF图,所有的残差ACF都在两倍标准误差范围内。图3(c)是残差序列Ljung-Box统计量的p值,如果模型能够很好地拟合数据中的序列相关性,其残差序列的这些p值应该都大于0.05,即残差不存在序列相关性,而图中的结果验证了这一结论,所有Ljung-Box统计量的p值都在0.05以上,残差的诊断结果也说明模型3很好地拟合了APP日活跃用户序列。
  下面进一步考察上述模型3的预测性能,本文将154个观测值划分为两部分,前147个观测值为训练样本,后面7个观测值作为测试样本进行预测评价。模型3为(1-B7)(1-B)xt=(1-0.3221B-0.1489B2-0.231B3)(1-0.9999B7)αt,以h=147为预测原点计算超前1—7步预测值和它们的标准误差。首先给出了模型1—7步预测的结果值,其1步预测至7步预测的均值分别为454、575、793、811、828、814、741。图4给出了模型3的预测结果图,为方便论述,只给出了最后21个训练观测值和7个预测值区间内的效果图,其中实线表示原始的数据序列,预测区间的真实值用“o”标识,点预测值用“*”标识。虚线表示95%的区间预测。从图中可以看出,预测值与实际观测值相近,有着较强的周期性特征,真实值都位于区间预测范围内。上述分析充分说明模型3对于APP的日活跃用户数有着良好的预测效果。
  四、结论
  本文通过季节性ARIMA模型对利市APP中的日活跃用户数进行了建模分析,并基于已有历史数据预测了未来一周的用户活跃数。利市APP日活跃用户具有明显的周效应,受节假日影响较大,由于样本区间处于我国股票市场的牛市行情阶段,因此该财经类APP有着稳定上升的趋势。模型估计结果表明,季节性ARIMA模型能够很好地拟合APP日活跃用户数,有效地刻画了数据中的周期性特征,并对未来趋势给出了较为准确的预测结果。该预测模型能够为APP开发和运营者制定未来市场战略提供一定的数据参考。
  参考文献:
  [1]张勃,刘秀丽.基于 ARIMA 模型的生态足迹动态模拟和预测——以甘肃省为例[J].生态学报,2011, 31(20):6251—6260
  [2]芮少权,匡安乐.高速公路月度交通量ARIMA预测模型[J].长安大学学报:自然科学版,2010,30(4):82—85
  [3]张华初,林洪.我国社会消费品零售额ARIMA预测模型[J].统计研究,2006 (7):58—60
  [4]Engle R F,Russell J R. Autoregressive conditio-
  nal duration: a new model for irregularly spaced transaction data[J]. Econometrica,1998:1127—1162
  [5]Tsay R S. Analysis of financial time series[M]. John Wiley & Sons,2005
  (佘宏俊,1985年生,湖北武汉人,东北财经大学数学与数量经济学院博士研究生)
其他文献
【本刊讯】 记者:2014年,习近平总书记和李克强总理分别主持召开中央财经领导小组第六次会议和新一届国家能源委员会首次会议,提出了“推进能源消费、供给、技术、体制革命和全方位加强能源国际合作”的能源工作总要求,明确了“节约、清洁、安全”的能源战略方针。您认为,能源行业应如何落实中央决策部署,重点推进哪些工作?  努尔·白克力:中央财经领导小组第六次会议是党中央专门研究能源安全问题的第一次会议,首次
期刊
一、中国内地M2/GDP高达195%,令多少人莫名担忧   2013年内地GDP为56.885万亿元(流量概念,比如个人的工资收入),当年M2存量为110.652万亿(存量概念,比如住房\存款等个人拥有的资产),M2/GDP高达195.2%,以2011年世界银行数据,内地M2/GDP为180%,列全球第10高,在大国中仅次于日本(240%)。为什么如此高呢,不少人士给出自己的解释,房地产业崛起而
期刊
被视为21世纪朝阳产业的文化产业,已成为一些发达国家的支柱型产业。作为国家综合实力的重要组成部分,文化产业在促进经济发展和社会建设方面发挥着重要作用,它的繁荣发展不仅能够提供更多的就业岗位,而且能满足人民群众日益增长的精神文化需求。我国在20世纪90年代提出文化经济概念以来,文化产业跨入了快速繁荣发展阶段,其增加值占GDP的比重不断提升。但与发达国家相比,我国的文化产业还有较大差距,尚处在发展的初
期刊
今年1—2月份工业经济增速创新低,景气度偏冷;制造业增长整体放缓,高技术、高加工度产业增长较快;西部地区大幅下滑、东北地区负增长共同拖累整体工业下滑,显示部分地区转型升级困难依然突出;全球工业经济整体疲软,发达经济体略好于新兴经济体。预计3月份,工业经济增速可能小幅反弹,但未来一段时期里工业经济仍将面临较大下行压力。  一、2015年1—2月份工业运行情况  (一)工业经济增速创新低  2015年
期刊
纵观2015年《政府工作报告》,体现出了新一届政府克服困难、迎难而上的决心,坚持改革的恒心和促进中国经济社会全面创新发展的信心;也充分体现出了新常态、新动力、新作为的时代命题和精神内涵。   一、新常态——经济发展新阶段   中国经济在自1978年改革开放以来30多年的高速增长之后,进入到新时期的中高速增长阶段,即新常态阶段。2014年5月,习近平在河南考察时第一次提出我国经济社会发展的“新常
期刊
摘要:我国中小企业融资结构存在外源性融资困难,难以满足企业经营需要、内源性融资为主,无法支持企业持续发展的特点,造成这种现象的原因,一是中小企业前景不明,银行规避风险惜贷。二是产品科技含量不高,不能满足风险投资的要求。完善中小企业融资结构的途径,一是转变银行观念,二是改革金融体制,三是改革授信制度,四是完善信用评级制度。  关键词:融资结构 中小企业 完善制度  当前,中小企业在我国国民经济中的作
期刊
近年来,我国服务外包产业规模迅速扩大,结构不断优化,以中国服务外包示范城市为主体的产业聚集效应日益增强。坚持改革创新,面向全球市场,加快发展高附加值服务外包产业,对于推进结构调整,形成产业升级新支撑、外贸增长新亮点、现代服务业发展新引擎和扩大就业新渠道具有重要意义。  今后三年,我国将培养一批中高端人才、复合型人才和国际型人才,培育一批具有国际先进水平的服务外包知名企业,建设一批主导产业突出、创新
期刊
评估政策的有效性对于决策者提高政策执行效率具有重要意义。要研究政策有效性问题,退耕还林政策是一个很好的切入点,它具有长周期、多目标、政策实施范围广、目标群体多等特点。本文提出了政策有效性包括政策设计的有效性、政策传导的有效性、政策执行的有效性和政策反馈的有效性四个方面,并从这四方面分析了哪些因素导致了退耕还林政策的无效性,并提出了提高政策效率的对策措施。   一、一个政策有效性评估框架   对
期刊
摘要:实施非现金结算,提高了财务管理效率,降低了现金流通风险,但一定程度上带来了资金到账不及时、间隔时间过长、银行款项划拨失败和外来人员报账不便的难题。提出了加大宣传力度,做好基础和审核工作,密切银行联系、开展付款方式创新,引入电子版确认单的应对之策。  关键词:非现金结算 款项支付 高校财务管理  为贯彻落实财政部、教育部关于高校减少现金结算的精神,各地高校大力引入和采用银行卡、网上银行、手机支
期刊
摘要:本文使用2009—2013年创业板上市公司数据,分析我国公司治理结构对于研发投入的影响,同时分析了在不同的股权属性下研发投入的差别。实证结果表明,创业板上市公司的综合治理指数与研发投入显著正相关,且家族企业比非家族企业的研发投入水平更高。  关键词:创业板 公司治理综合指数 研发投入  研发投入是企业非常重要的战略投资决策,这项决策能够提高企业的自主创新能力,帮助企业维护和提高核心竞争力。公
期刊