论文部分内容阅读
[摘要] CRM是数据挖掘技术在企业决策支持系统中的重要应用领域。本文在数据挖掘技术和CRM基本概念的基础上,分析了数据挖掘技术在CRM中的应用,最后用SPRINT算法构建了客户信用卡的分类模型。
[关键词] 数据挖掘 CRM 客户分类
一、引言
随着电子商务的发展,愈来愈多的先进企业将重点从“以产品为中心”向“以客户为中心”的客户关系管理转移。客户关系管理为企业经营、决策和管理提供了一种新型商业模式。数据挖掘主要是基于人工智能技术、统计技术与数据库技术,高度自动化地分析企业中的数据,从中挖掘出潜在的信息,帮助用户进行决策。数据挖掘是一种新的商业信息处理技术,其主要特点是对商业数据库中的大量业务数据进行抽取、转换、分析和其他模型化处理,从中提取辅助商业决策的关键性数据。客户关系管理是数据挖掘技术在企业决策支持系统中的重要应用领域。利用数据挖掘技术,发掘客户数据中蕴涵的知识,从而强化跟踪服务和信息分析能力,使企业以提供更快捷和周到的优质服务,提高客户满意度,吸引和保持更多的客户从而增加营业额,并通过信息共享和优化商业流程有效地降低企业经营成本。
二、基本概念
1.CRM的概念
客户关系管理(CRM)是指对企业和客户之间的交互活动进行管理的过程。它是企业为了提高核心竞争力,通过改进对客户的服务水平,以客户为核心的经营理念;是实施于企业的市场营销、销售、服务、技术支持等与客户相关的领域,旨在改善企业与客户之间关系的新型机制;也是企业通过技术投资,建立能搜集、跟踪和分析客户信息的系统,创造并使用先进的信息技术,以及优化的管理方法和解决方案的总和。
按照目前市场上流行的功能分类方法,CRM应用系统可以分为操作型CRM、分析型CRM和协作型CRM。其中,分析型CRM就是利用数据仓库、数据挖掘等技术对各种数据进行分析,并从中获得有价值的信息,支持发掘和理解客户行为。
2.数据挖掘技术
数据挖掘是当前信息分析领域中的热门技术。数据挖掘是从大量数据中提取出可信的、新颖的、有效的并能被人理解的模式的处理过程。数据挖掘任务一般可分为两类:描述和预测。描述型挖掘任务刻画数据库中的数据的一般类型,预测型挖掘任务在当前数据上进行推断及预测。数据挖掘的功能以及可以发现的模式类型介绍如下:
(1)分类。分类是数据挖掘中一项非常重要的任务,目前在商业上应用最多。分类是使用类标记已知的数据对象作为训练集,通过对该数据集的分析,导出数据的分类模型,然后使用模型预测未知数据。
(2)聚类。聚类是根据数据的不同特征,将其划分不同的数据类,目的是使同一类别的个体之间的距离尽可能小,而不同类别上的个体间的距离尽可能大。
(3)关联分析。关联规则挖掘是从大量的商业事务记录中发现大量数据项之间有趣的相关性。关联规则发现广泛应用于市场营销、事务分析等领域。
(4)孤立点分析。数据库中包含那些不符合大多数数据对象所构成的规律(模型)的数据对象就被称为孤立点。对这些数据的挖掘分析可以处理一些特殊事件。
(5)演变分析。数据演变分析描述行为随时间变化的对象的规律或趋势,并对其建模。可以进行趋势分析、相似性分析、与时间有关数据的序列模式挖掘和周期模式挖掘。
三、数据挖掘在CRM中的应用分析
1.客户分类分析
所谓客户分类就是将一个大的消费群体划分成一系列细分群体的过程。通过客户群体分类,数据挖掘可以通过聚类和分类的方法把大量的客户分成不同的类。企业可以针对不同类型的客户提供个性化的服务,使企业以最小的投入获得最大的回报。
2.客户行为分析
(1)客户满意度分析。客户满意度分析是对某项产品或服务的消费经验的总体评价,应用数据挖掘的分析方法对客户的信息进行分析,找出客户的不满意的原因,从而增加客户的忠诚度。
(2)客户忠诚度分析。客户忠诚度是指某个企业的用户愿意继续购买该企业产品或服务的倾向。企业以客户的购买倾向为度量,对已有的客户数据进行分析,从而保持现有的客户。
(3)客户盈利能力分析。客户盈利能力分析是利用数据挖掘技术来分析和预测不同市场活动情况下客户盈利能力的变化,帮助企业制定适合的市场策略,留住有价值的客户,开发潜在客户。
(4)客户生命周期价值分析。客户生命周期价值分析是对现有客户或潜在客户在一段时期内的预期价值。主要是分析客户在不同时期的收入、成本、风险,利用价值理论公式得出客户的价值并提供预测。
(5)客户流失分析。客户流失分析是根据以前的客户流失数据包括的客户属性、服务属性和客户消费属性与客户流失可能性关联的数学模型,找出客户流失原因,建立预测模型来推测出现有客户的流失情况。
(6)交叉销售分析。交叉销售是指企业向原有客户销售新的产品或服务的营销过程。数据挖掘可以帮助企业分析出最优的销售匹配方式,决定选择最合适的交叉销售方式。交叉销售分析是典型的关联分析问题。
3.市场分析
市场是企业生存的关键,预测市场走势是分析预测产品发展趋势、预测不同区域消费者对不同产品的消费趋势、以及分析季节性变化、非规则变化等。采用时序分析的方法,对基于时间序列的销售数据进行趋势分析,分析预测市场的趋势变化、循环变化、季节性变化、非规则或随机变化。通过数据挖掘的客户关系管理系统的分析,可以有效地指导企业在市场、销售、服务方面将资源分配给有价值的客户,掌握客户的行为模式,以便提前对可能的各种客户行为以及市场变化做准备。
四、决策树在客户分类中的应用实例
在数据挖掘技术中主要有两类技术可以对客户进行分类:分类技术和聚类技术,把这两种技术进行有机的结合,能进行有效的分类。如果要对客户进行细分,首先根据一部分客户数据进行聚类,利用聚类结果对不同的客户赋以不同的类标记,然后利用分类功能,对客户特征进行建模,挖掘出不同类的客户的不同特征。在下面的内容中,按照数据挖掘的一般过程模型,利用决策树技术对一个客户数据集按照客户持有的客户会员卡进行分类。
1.数据准备
用做测试分析的数据集FoodMart2000,是Microsoft 产品 SQL Server 2000 Analysis Services 提供的示例数据库。在FoodMart2000数据库中提供了24个表,每一个表都有一定数据量。其中,Customer表中多达27个属性,共有10281个不同客户的记录,每个客户数据记录包含有客户数据:客户姓名、性别、住址、婚姻状况、持有的会员卡类型等个人信息。
在开始数据挖掘前,用数据挖掘工具提供的相关分析技术,筛选出适合用来进行建模的属性。我们选用Microsoft SQL Server 2005中的Analysis Services工具对Customer表的数据进行相关分析,其中member_card是我们所要的分类属性。从相关分析的结果可以看到,要进行基于member_card的分类,我们选择如下的属性:yearly_income、education、num_cars_owned、num_children_at_home、occupation等五个属性进行分析。
为了更好地模拟实际的数据,考虑到客户的年收入(yearly_income)应该是数值型属性,我们将数据库中的yearly_income处理成数值型属性进行分类。将离散值“$10K~$30K”处理为数值“1”,离散值“$30K~$50K”处理为数值“3”,以此类推,直到“$150K+”处理为数值“15”。
2.建立模型和评估
SPRINT决策树算法是一种准确率高,速度快的决策树算法。下面选择SPRINT决策树算法进行客户分类挖掘:首先用训练数据集建立决策树模型;然后对模型的准确率用测试数据进行测试。
(1)模型的建立。用某一次随机取样方法得到的训练集和SPRINT算法建立决策树模型,通过剪枝后可以得到如下模型:
yearly_income <= 2 ==>Normal (1370/1476,106,0.9282/0.0718)
yearly_income > 2
num_children_at_home <=1.5
yearly_income <=14 ==>Bronze (3684/4528,844,0.8136/0.1864)
yearly_income >14
num_children_at_home <=0.5 ==>Silver (70/89,19,0.7865/0.2135)
num_children_at_home >0.5 ==>Golden (35/38,3,0.9211/0.0789)
num_children_at_home >1.5 ==>Golden (533/723,190,0.7372/0.2628)
将上面的模型以决策树的形式表示,如图1所示。
图中根节点0的左子节点是叶节点1,在该节点中占多数的类是Normal(92.82%),因此用Normal来标记该节点,但还有7.18%的记录(客户)所标记(持有)的会员卡与Normal不一致,称为发生了分类错误,但是相比根节点0(未分类时)的情况:Normal=23.42%、 Bronze=55.62%、Silver=9.02%、Golden=11.95%,可以认为已明显区分出了客户选择Normal会员卡的模式。对叶节点4、5、7、8的解释同上。
(2)模型的评估。根据保持取样划分的方法,取三分之二的数据分配到训练集,其他三分之一分配到测试集,我们对原数据集进行五次取样进行测试。分别用获得的训练集和测试集建立决策树模型并对模型作测试,每次建立的模型的结构一致、各节点所属类别没有发生变化。图2是五次分类效果的比较。纵轴表示数据记录在其所属的数据集中的分类正确率,实线表示训练集,虚线表示测试集。就所用的测试集进行测试的结果来看,模型的表现比较稳定,五次的试验结果都没有明显差别。
3.模型发布
模型的发布就是在一个数据挖掘模型建立好以后,将数据挖掘所获得的知识用一种用户可以使用的方式来组织和表示出来。预言模型标记语言PMML(Predictive Model Markup Language)是利用XML描述和存储数据挖掘模型的一种规范。该规范的内容是一份XML DTD文档。对应该实例中的决策树模型也可以创建一个一份XML DTD文档,限于篇幅,在此省略。
五、结论
随着电子商务和CRM应用的不断推广,企业营销数据和相关信息的不断积累,数据仓库逐渐广泛应用,数据挖掘将成为企业获取决策信息的重要工具。在CRM中有效利用数据挖掘,可以为企业高层决策者提供准确的、有价值的信息,指导企业制定最优的企业营销策略,降低企业运营成本,增加利润,加速企业的发展。
参考文献:
[1]Alex Berson,Stephen Smith,Kurt Thearling.Building Data Mining Applications for CRM[M].McGraw Hill Education,1999
[2]Han J, Kamber M. Data Mining: Concepts and Techniques[M]. Beijing: High Education Press, 2001
[关键词] 数据挖掘 CRM 客户分类
一、引言
随着电子商务的发展,愈来愈多的先进企业将重点从“以产品为中心”向“以客户为中心”的客户关系管理转移。客户关系管理为企业经营、决策和管理提供了一种新型商业模式。数据挖掘主要是基于人工智能技术、统计技术与数据库技术,高度自动化地分析企业中的数据,从中挖掘出潜在的信息,帮助用户进行决策。数据挖掘是一种新的商业信息处理技术,其主要特点是对商业数据库中的大量业务数据进行抽取、转换、分析和其他模型化处理,从中提取辅助商业决策的关键性数据。客户关系管理是数据挖掘技术在企业决策支持系统中的重要应用领域。利用数据挖掘技术,发掘客户数据中蕴涵的知识,从而强化跟踪服务和信息分析能力,使企业以提供更快捷和周到的优质服务,提高客户满意度,吸引和保持更多的客户从而增加营业额,并通过信息共享和优化商业流程有效地降低企业经营成本。
二、基本概念
1.CRM的概念
客户关系管理(CRM)是指对企业和客户之间的交互活动进行管理的过程。它是企业为了提高核心竞争力,通过改进对客户的服务水平,以客户为核心的经营理念;是实施于企业的市场营销、销售、服务、技术支持等与客户相关的领域,旨在改善企业与客户之间关系的新型机制;也是企业通过技术投资,建立能搜集、跟踪和分析客户信息的系统,创造并使用先进的信息技术,以及优化的管理方法和解决方案的总和。
按照目前市场上流行的功能分类方法,CRM应用系统可以分为操作型CRM、分析型CRM和协作型CRM。其中,分析型CRM就是利用数据仓库、数据挖掘等技术对各种数据进行分析,并从中获得有价值的信息,支持发掘和理解客户行为。
2.数据挖掘技术
数据挖掘是当前信息分析领域中的热门技术。数据挖掘是从大量数据中提取出可信的、新颖的、有效的并能被人理解的模式的处理过程。数据挖掘任务一般可分为两类:描述和预测。描述型挖掘任务刻画数据库中的数据的一般类型,预测型挖掘任务在当前数据上进行推断及预测。数据挖掘的功能以及可以发现的模式类型介绍如下:
(1)分类。分类是数据挖掘中一项非常重要的任务,目前在商业上应用最多。分类是使用类标记已知的数据对象作为训练集,通过对该数据集的分析,导出数据的分类模型,然后使用模型预测未知数据。
(2)聚类。聚类是根据数据的不同特征,将其划分不同的数据类,目的是使同一类别的个体之间的距离尽可能小,而不同类别上的个体间的距离尽可能大。
(3)关联分析。关联规则挖掘是从大量的商业事务记录中发现大量数据项之间有趣的相关性。关联规则发现广泛应用于市场营销、事务分析等领域。
(4)孤立点分析。数据库中包含那些不符合大多数数据对象所构成的规律(模型)的数据对象就被称为孤立点。对这些数据的挖掘分析可以处理一些特殊事件。
(5)演变分析。数据演变分析描述行为随时间变化的对象的规律或趋势,并对其建模。可以进行趋势分析、相似性分析、与时间有关数据的序列模式挖掘和周期模式挖掘。
三、数据挖掘在CRM中的应用分析
1.客户分类分析
所谓客户分类就是将一个大的消费群体划分成一系列细分群体的过程。通过客户群体分类,数据挖掘可以通过聚类和分类的方法把大量的客户分成不同的类。企业可以针对不同类型的客户提供个性化的服务,使企业以最小的投入获得最大的回报。
2.客户行为分析
(1)客户满意度分析。客户满意度分析是对某项产品或服务的消费经验的总体评价,应用数据挖掘的分析方法对客户的信息进行分析,找出客户的不满意的原因,从而增加客户的忠诚度。
(2)客户忠诚度分析。客户忠诚度是指某个企业的用户愿意继续购买该企业产品或服务的倾向。企业以客户的购买倾向为度量,对已有的客户数据进行分析,从而保持现有的客户。
(3)客户盈利能力分析。客户盈利能力分析是利用数据挖掘技术来分析和预测不同市场活动情况下客户盈利能力的变化,帮助企业制定适合的市场策略,留住有价值的客户,开发潜在客户。
(4)客户生命周期价值分析。客户生命周期价值分析是对现有客户或潜在客户在一段时期内的预期价值。主要是分析客户在不同时期的收入、成本、风险,利用价值理论公式得出客户的价值并提供预测。
(5)客户流失分析。客户流失分析是根据以前的客户流失数据包括的客户属性、服务属性和客户消费属性与客户流失可能性关联的数学模型,找出客户流失原因,建立预测模型来推测出现有客户的流失情况。
(6)交叉销售分析。交叉销售是指企业向原有客户销售新的产品或服务的营销过程。数据挖掘可以帮助企业分析出最优的销售匹配方式,决定选择最合适的交叉销售方式。交叉销售分析是典型的关联分析问题。
3.市场分析
市场是企业生存的关键,预测市场走势是分析预测产品发展趋势、预测不同区域消费者对不同产品的消费趋势、以及分析季节性变化、非规则变化等。采用时序分析的方法,对基于时间序列的销售数据进行趋势分析,分析预测市场的趋势变化、循环变化、季节性变化、非规则或随机变化。通过数据挖掘的客户关系管理系统的分析,可以有效地指导企业在市场、销售、服务方面将资源分配给有价值的客户,掌握客户的行为模式,以便提前对可能的各种客户行为以及市场变化做准备。
四、决策树在客户分类中的应用实例
在数据挖掘技术中主要有两类技术可以对客户进行分类:分类技术和聚类技术,把这两种技术进行有机的结合,能进行有效的分类。如果要对客户进行细分,首先根据一部分客户数据进行聚类,利用聚类结果对不同的客户赋以不同的类标记,然后利用分类功能,对客户特征进行建模,挖掘出不同类的客户的不同特征。在下面的内容中,按照数据挖掘的一般过程模型,利用决策树技术对一个客户数据集按照客户持有的客户会员卡进行分类。
1.数据准备
用做测试分析的数据集FoodMart2000,是Microsoft 产品 SQL Server 2000 Analysis Services 提供的示例数据库。在FoodMart2000数据库中提供了24个表,每一个表都有一定数据量。其中,Customer表中多达27个属性,共有10281个不同客户的记录,每个客户数据记录包含有客户数据:客户姓名、性别、住址、婚姻状况、持有的会员卡类型等个人信息。
在开始数据挖掘前,用数据挖掘工具提供的相关分析技术,筛选出适合用来进行建模的属性。我们选用Microsoft SQL Server 2005中的Analysis Services工具对Customer表的数据进行相关分析,其中member_card是我们所要的分类属性。从相关分析的结果可以看到,要进行基于member_card的分类,我们选择如下的属性:yearly_income、education、num_cars_owned、num_children_at_home、occupation等五个属性进行分析。
为了更好地模拟实际的数据,考虑到客户的年收入(yearly_income)应该是数值型属性,我们将数据库中的yearly_income处理成数值型属性进行分类。将离散值“$10K~$30K”处理为数值“1”,离散值“$30K~$50K”处理为数值“3”,以此类推,直到“$150K+”处理为数值“15”。
2.建立模型和评估
SPRINT决策树算法是一种准确率高,速度快的决策树算法。下面选择SPRINT决策树算法进行客户分类挖掘:首先用训练数据集建立决策树模型;然后对模型的准确率用测试数据进行测试。
(1)模型的建立。用某一次随机取样方法得到的训练集和SPRINT算法建立决策树模型,通过剪枝后可以得到如下模型:
yearly_income <= 2 ==>Normal (1370/1476,106,0.9282/0.0718)
yearly_income > 2
num_children_at_home <=1.5
yearly_income <=14 ==>Bronze (3684/4528,844,0.8136/0.1864)
yearly_income >14
num_children_at_home <=0.5 ==>Silver (70/89,19,0.7865/0.2135)
num_children_at_home >0.5 ==>Golden (35/38,3,0.9211/0.0789)
num_children_at_home >1.5 ==>Golden (533/723,190,0.7372/0.2628)
将上面的模型以决策树的形式表示,如图1所示。
图中根节点0的左子节点是叶节点1,在该节点中占多数的类是Normal(92.82%),因此用Normal来标记该节点,但还有7.18%的记录(客户)所标记(持有)的会员卡与Normal不一致,称为发生了分类错误,但是相比根节点0(未分类时)的情况:Normal=23.42%、 Bronze=55.62%、Silver=9.02%、Golden=11.95%,可以认为已明显区分出了客户选择Normal会员卡的模式。对叶节点4、5、7、8的解释同上。
(2)模型的评估。根据保持取样划分的方法,取三分之二的数据分配到训练集,其他三分之一分配到测试集,我们对原数据集进行五次取样进行测试。分别用获得的训练集和测试集建立决策树模型并对模型作测试,每次建立的模型的结构一致、各节点所属类别没有发生变化。图2是五次分类效果的比较。纵轴表示数据记录在其所属的数据集中的分类正确率,实线表示训练集,虚线表示测试集。就所用的测试集进行测试的结果来看,模型的表现比较稳定,五次的试验结果都没有明显差别。
3.模型发布
模型的发布就是在一个数据挖掘模型建立好以后,将数据挖掘所获得的知识用一种用户可以使用的方式来组织和表示出来。预言模型标记语言PMML(Predictive Model Markup Language)是利用XML描述和存储数据挖掘模型的一种规范。该规范的内容是一份XML DTD文档。对应该实例中的决策树模型也可以创建一个一份XML DTD文档,限于篇幅,在此省略。
五、结论
随着电子商务和CRM应用的不断推广,企业营销数据和相关信息的不断积累,数据仓库逐渐广泛应用,数据挖掘将成为企业获取决策信息的重要工具。在CRM中有效利用数据挖掘,可以为企业高层决策者提供准确的、有价值的信息,指导企业制定最优的企业营销策略,降低企业运营成本,增加利润,加速企业的发展。
参考文献:
[1]Alex Berson,Stephen Smith,Kurt Thearling.Building Data Mining Applications for CRM[M].McGraw Hill Education,1999
[2]Han J, Kamber M. Data Mining: Concepts and Techniques[M]. Beijing: High Education Press, 2001