论文部分内容阅读
[摘 要]本文作者采用关联规则数据挖掘中广泛应用的Apriori算法,针对联通通信市场上最有活力、最具潜力、最受瞩目的,呈现出应用多元化、营销品牌化、管理集中化、合作纵深化的特点的业务,依托某电信运营商正在建设的增值业务Web数据仓库平台,对来自联通增值业务方面的调查数据进行了相关的挖掘处理,从而获得了关于用户行为特征和需求的间接反映市场动态的有用信息,这些信息在指导运营商的业务运营和辅助业务提供商的决策制定等方面具有十分重要的参考价值。
[关键词]数据挖掘;经营业务;关联规则
中图分类号:TN 文献标识码:A 文章编号:1009-914X(2015)23-0199-01
一 基于Apriori 算法关联规则介绍
关联规则反映了一个事物与其他事物之间的相互依存性和关联性。如果两个或者多个事物之间存在一定的关联关系,那么其中一个事物就能够通过其他事物预测到。
关联规则挖掘是数据挖掘中最活跃的研究方法之一。典型的关联规则发现问题是对超市中的购物篮数据进行分析。通过发现顾客放入购物篮的不同商品之间的关系来分析顾客的购买习惯。
案例:“尿布与啤酒”的故事
美国沃尔玛超市对一年多的原始交易数据进行了详细的分析,得到一个意外发现:与尿布一起被购买最多的商品竟然是啤酒。借助于数据仓库和关联规则,商家发现了这个隐藏在背后的事实:美国的妇女们经常会嘱咐她们的太夫下班后为孩子买尿布,而30%-40%的丈夫在买完尿布后又要顺便购买自己爱喝的啤酒。有了此发现,超市将尿布和啤酒摆放在一起销售,大大增加了销售额。 什么是规则?规则形如“如果…那么…(If...Then...)”,前者为条件,后者为结果。例如一个顾客,如果买了可乐,那么他也会购买果汁。 如何来度量一个规则是否够好? 有两个量,置信度( Confidence )和支持度( Support )。假设有如下表的购买记录。
置信度表示了这条规则有多大程序上值得可信。设条件的项的集合为A,结果的集合为B。置信度计算在A中,同时也含有B的概率( if A,then B的概率)。即Confidence(A->B)=P(B/A)。例如计算“如果O range则Coke”的置信度。由于在含有“橙汁”的4条交易中,仅有2条交易含有“可乐”。其置信度为0.5。
支持度计算在所有的交易集中,即有A又有B的概率。例如在5条记录中,既有橙汁又有可乐的记录有2条。则此条规则的支持度为2/5=0.4,即Support(A->B)=P(AB)。现在这条规则可表述为,如果一个顾客购买了橙汁,则有50%(置信度)的可能購买可乐。而这样的情况(即买了橙汁会再买可乐)会有40%(支持度)的可能发生。
Apriori算法是一种最有影响的挖掘布尔关联规则频繁项集的算法。算法使用频繁项集性质的先验知识。Apriori使用一种称作逐层搜索的迭代方法,k-项集用于探索(k+1)-项集。首先,找出频繁1-项集的集合。该集合记作L1。L1用于找频繁2-项集的集合L2,而L2用于找L3,如此下去,直到不能找到频繁k-项集。找每个Lk需要一次数据库扫描。
算法举例: 现有A,B,C,D,E五种商品的交易记录表,找出所有频繁项集,假设最小支持度>=50%,最小置信度>=50%。
二 联通业务介绍
联通公司自成功将固网和G网融合后,拥有繁多的业务及套餐, 为客户提供上午种语音、数据、IP电话和多媒体业务。关联规则挖掘可以为联通的经营提供有效的支持。首先从大量的数据中可以挖掘联通客户对不同业务的使用情况。其次可以通过关联规则挖掘为业务捆绑和交叉营销提供决策支持。
例如:针对语音增值业务,联通目前提供基本话音服务外,还提供语音信箱、呼叫转移、呼叫等待、呼叫限制、三方通话等多种增值业务。运用关联规则算法挖掘不同的语音增值业务之间的相关性。
增值业务关联规则集如下图所示:
如此可以发现,呼叫转移、呼叫等待、呼叫保持与短消息服务有很强的关联性,其中呼叫转移与短消息服务的关联性最强,选择了短消息业务的人就有73.47%选择呼叫转移,而选择呼叫转移的人有97.88%的选择了短消息业务。 客户通过了解业务的特性的同时加入了某些目的性的探索方式,在每步生成频繁项集中删除了无用项集,从而有效的减少了频繁项集的数目。另一方面在数据检查过程中,对数据也有了一定的了解,针对不同关系设定了不同的置信度和支持度。也获得了很好的数据结果的展示。
最终结果为,只要选择了三方通话,同时选择了呼叫转移、呼叫等待、呼叫保持中的一种,就会选择呼叫转移、呼叫等待、呼叫保持中剩下的一种。综上所述,市场部门可根据关联程度不同制定不同的套餐计划,保留老客户,发展新客户。
三 结论
通过将用户自然属性,用户消费行为,用户使用业务,用户访问信息等数据进行关联,获得了一系列有效的支持运营决策的数据信息,这些信息在未来的优化产品、业务设计、指导运营、营销设计方面有一定的价值。在算法方面,尽可能的减少了生成频繁项集的数目,整个应用过程中,还需要对Apriori 算法进一步的优化。
参考文献
[1] 王爱平;王占凤;陶嗣干;燕飞飞.数据挖掘中常用关联规则挖掘算法.计算机科学技术与发展.2010(04)
[2] 高峰,谢剑英.发现关联规则的增量式更新算法[J].计算机工程.2000(12)
[关键词]数据挖掘;经营业务;关联规则
中图分类号:TN 文献标识码:A 文章编号:1009-914X(2015)23-0199-01
一 基于Apriori 算法关联规则介绍
关联规则反映了一个事物与其他事物之间的相互依存性和关联性。如果两个或者多个事物之间存在一定的关联关系,那么其中一个事物就能够通过其他事物预测到。
关联规则挖掘是数据挖掘中最活跃的研究方法之一。典型的关联规则发现问题是对超市中的购物篮数据进行分析。通过发现顾客放入购物篮的不同商品之间的关系来分析顾客的购买习惯。
案例:“尿布与啤酒”的故事
美国沃尔玛超市对一年多的原始交易数据进行了详细的分析,得到一个意外发现:与尿布一起被购买最多的商品竟然是啤酒。借助于数据仓库和关联规则,商家发现了这个隐藏在背后的事实:美国的妇女们经常会嘱咐她们的太夫下班后为孩子买尿布,而30%-40%的丈夫在买完尿布后又要顺便购买自己爱喝的啤酒。有了此发现,超市将尿布和啤酒摆放在一起销售,大大增加了销售额。 什么是规则?规则形如“如果…那么…(If...Then...)”,前者为条件,后者为结果。例如一个顾客,如果买了可乐,那么他也会购买果汁。 如何来度量一个规则是否够好? 有两个量,置信度( Confidence )和支持度( Support )。假设有如下表的购买记录。
置信度表示了这条规则有多大程序上值得可信。设条件的项的集合为A,结果的集合为B。置信度计算在A中,同时也含有B的概率( if A,then B的概率)。即Confidence(A->B)=P(B/A)。例如计算“如果O range则Coke”的置信度。由于在含有“橙汁”的4条交易中,仅有2条交易含有“可乐”。其置信度为0.5。
支持度计算在所有的交易集中,即有A又有B的概率。例如在5条记录中,既有橙汁又有可乐的记录有2条。则此条规则的支持度为2/5=0.4,即Support(A->B)=P(AB)。现在这条规则可表述为,如果一个顾客购买了橙汁,则有50%(置信度)的可能購买可乐。而这样的情况(即买了橙汁会再买可乐)会有40%(支持度)的可能发生。
Apriori算法是一种最有影响的挖掘布尔关联规则频繁项集的算法。算法使用频繁项集性质的先验知识。Apriori使用一种称作逐层搜索的迭代方法,k-项集用于探索(k+1)-项集。首先,找出频繁1-项集的集合。该集合记作L1。L1用于找频繁2-项集的集合L2,而L2用于找L3,如此下去,直到不能找到频繁k-项集。找每个Lk需要一次数据库扫描。
算法举例: 现有A,B,C,D,E五种商品的交易记录表,找出所有频繁项集,假设最小支持度>=50%,最小置信度>=50%。
二 联通业务介绍
联通公司自成功将固网和G网融合后,拥有繁多的业务及套餐, 为客户提供上午种语音、数据、IP电话和多媒体业务。关联规则挖掘可以为联通的经营提供有效的支持。首先从大量的数据中可以挖掘联通客户对不同业务的使用情况。其次可以通过关联规则挖掘为业务捆绑和交叉营销提供决策支持。
例如:针对语音增值业务,联通目前提供基本话音服务外,还提供语音信箱、呼叫转移、呼叫等待、呼叫限制、三方通话等多种增值业务。运用关联规则算法挖掘不同的语音增值业务之间的相关性。
增值业务关联规则集如下图所示:
如此可以发现,呼叫转移、呼叫等待、呼叫保持与短消息服务有很强的关联性,其中呼叫转移与短消息服务的关联性最强,选择了短消息业务的人就有73.47%选择呼叫转移,而选择呼叫转移的人有97.88%的选择了短消息业务。 客户通过了解业务的特性的同时加入了某些目的性的探索方式,在每步生成频繁项集中删除了无用项集,从而有效的减少了频繁项集的数目。另一方面在数据检查过程中,对数据也有了一定的了解,针对不同关系设定了不同的置信度和支持度。也获得了很好的数据结果的展示。
最终结果为,只要选择了三方通话,同时选择了呼叫转移、呼叫等待、呼叫保持中的一种,就会选择呼叫转移、呼叫等待、呼叫保持中剩下的一种。综上所述,市场部门可根据关联程度不同制定不同的套餐计划,保留老客户,发展新客户。
三 结论
通过将用户自然属性,用户消费行为,用户使用业务,用户访问信息等数据进行关联,获得了一系列有效的支持运营决策的数据信息,这些信息在未来的优化产品、业务设计、指导运营、营销设计方面有一定的价值。在算法方面,尽可能的减少了生成频繁项集的数目,整个应用过程中,还需要对Apriori 算法进一步的优化。
参考文献
[1] 王爱平;王占凤;陶嗣干;燕飞飞.数据挖掘中常用关联规则挖掘算法.计算机科学技术与发展.2010(04)
[2] 高峰,谢剑英.发现关联规则的增量式更新算法[J].计算机工程.2000(12)