论文部分内容阅读
摘要:聚类分析是数据挖掘的一种重要方法,将它应用在客户细分中,可以识别出不同的客户群,从而针对不同的客户群制定相应的营销政策,使企业效益最大化。针对聚类分析中k-means算法的不足,运用改进的聚类算法对旅游业客户进行细分,从而使企业能够更合理地细分、规划客户群组,针对不同需求的客户群体进行区别对待,得到了较好的效果,验证了改进算法的可行性和高效性。
关键词:聚类分析;客户细分;数据挖掘;改进的k-means算法;客户群
中图分类号:F713.50 文献标识码:A 文章编号:1007-2101(2014)01-0118-04
客户关系管理中的一个重要环节就是客户细分,它也是客户关系管理中的核心概念之一。客户细分是将一个大的客户群或者消费者群体划分成多个细分群体,这些群体中同属于一个细分群体的客户或者消费者的彼此特性相似,而隶属于不同细分群体的客户或者消费者之间是不同的。简而言之,客户细分是根据客户的属性、行为、需求、偏好以及价值等因素划分的客户集合。
在激烈的市场竞争中,客户细分是众多企业识别客户类别、把握客户特征的重要方法。通过客户细分,企业可以更好地识别客户群体,从而达到区别对待有不同需求的客户,采取差异化的营销策略,达到最优化配置客户资源的目的。因此,当今企业如果想在激烈的市场竞争中脱颖而出就应该了解如何对客户群体进行客户细分,从而挖掘出具有消费潜力的客户,并针对这些客户进行合理的资源分配,对不同价值的客户制定出不同的营销策略。
一、聚类分析算法
目前,有很多种聚类算法可以选择,而究竟选择哪种算法主要取决于数据的类型、聚类的目的及其应用。现今,主要的聚类算法可以划分为以下几类:基于划分的方法、基于网格的方法、基于层次的方法和基于密度的方法等。基于划分的聚类方法为给定数据集合指定合理的划分,每个对象被指定给唯一的簇。簇的个数k是需要用户指定的输入参数。一个好的聚类算法的划分准则是:不同类中的对象之间尽可能的远离或者不同,而同一类中的对象之间尽可能的相近或者相关。
k-means算法是其中最常用的划分方法,它以k为参数,再把n个对象分解成为k个簇,以使簇内具有较高的相似度,簇间具有较低的相似度。而相似度的计算是根据一个簇中对象的平均值来进行的。它的算法步骤为:首先在所有的对象中随机的选取k个对象用作初始的聚类中心;然后根据剩余对象与各个中心点之间的距离,将它们分配到距离最近的簇中;再重新计算一遍新得到的每个簇的均值并将它作为新的聚类中心。重复上述步骤直到准则函数收敛为止。
k-means算法的主要优点是算法简洁、快速。它是解决聚类问题的经典算法之一。它在结果簇是密集的,且簇与簇之间区别明显时效果最好。同时对处理较大的数据集时,该算法也是相对高效和可伸缩的。它的时间复杂度是O(nkt),其中n是所有对象的数目,k是簇的数目,t是迭代的次数。但k-means算法同时也具有一定的局限性,主要体现在以下几个方面:
1. 从样本点的集合中随机选取k个中心,这种选择具有盲目性和随意性,它在很大程度上决定了算法的有效性。这个算法的聚类结果对初值的依赖性很强,初始值一旦选择的不好,可能无法得到有效的聚类结果。所以,这也成为k-means算法的一个核心问题,因此对初始中心的选择进行改进既有意义也有必要。
2. 聚类中心的调整,这是涉及聚类准确性的关键问题。k-means算法的处理方法是对每一个已有的分类,聚类中心为该类中所含数据点的几何平均值。而平方误差准则函数在各个簇之间区别明显且数据分布稠密时运用起来比较有效;但是如果各簇的形状和大小差别很大,为使函数收敛则可能会将大的聚类簇分割,从而导致聚类结果的不准确。
二、改进的k-means算法
三、实例分析
本次试验是针对旅游业客户对服务重要性的评价打分进行客户细分,从而将客户细分成几类,针对不同类客户采取不同的决策,最终使企业的效益最大化。
1. 确定数据挖掘的目标。数据挖掘不能盲目地进行,必须非常明确的定义出业务的问题。因此认清数据挖掘的目的是数据挖掘很重要的一步。本次试验是对旅游业的客户进行分类。
2. 收集和预处理数据。在数据挖掘中首要步骤就是收集数据。数据可以从多种渠道中获得,可以从数据仓库中,也可以从现有事务处理系统中得到。获得数据后,从中选择出与业务对象相关的,并且适用于数据挖掘应用的数据。而在收集阶段得到的数据可能存在一系列的问题,表现在数据有缺失或存在自身的不一致性等。因此我们要先做数据的预处理,一般包括消除重复记录、推导计算缺值数据、完成数据类型的转换、消除噪声等。
本次试验的数据来源于数据仓库中抽取的旅游业的客户服务数据,既有客户旅行完的问卷调查,也有网上评分。同时表明了客户对于服务重要性的打分。表1中的数据是客户认为服务重要性的5个打分,分别为1~5从不重要到重要。
3. 数据分析。数据分析的主要目的是:“消减数据维数或降维,即从初始特征中找出真正有用的特征,以减少数据挖掘时要考虑的特征或变量个数。”针对旅游业客户的评价,对于性别等不起决定作用的属性予以删除,主要考虑客户对于时间安排、交通安排、食宿安排、浏览地点及导游服务的评价。
6. 分析模型结果。客户ID为1、2、7和客户ID为3、4的客户都有相类似的服务要求,而客户ID为5、6的客户我们把他归类为第三类客户。其中,当客户的数量达到一定程度时,我们可以根据服务细分原则,把要求类似的客户聚类分组,这样就可以做到针对不同需求的客户做到不同的服务,这样既有利于节约成本,又能给客户提供最为适合的服务。并能使该公司做到自己的服务内容与众不同,从而逐步实现“一对一营销”,提高客户的满意度,也在一定程度上保证了客户的忠诚度,最终使公司效益和利益最大化。 与k-means算法得到的结果比较:如图2所示,k-means算法需要迭代四次后算法收敛,生成最终聚类;改进后的k-means算法只需迭代2次即可得到结果,从而在效率上大大提高,简化了复杂度。
由此得出改进的k-means算法具有可行性和高效性,能够将客户细分,为企业做出正确决策提供依据。
四、总结
聚类分析在数据挖掘中的有着较为广泛的实际应用,本文研究和实现了用改进的k-means算法对旅游行业的客户进行细分建模,并把具有相似特征的客户归为一类,不同特征的客户分为不同的类。并根据建立的模型,可以使企业能够更合理地细分、规划客户群组,针对不同需求的客户群体进行区别对待,从而提供有针对性的服务。最终帮助企业把有效的精力、资源和时间安排在最有价值和潜力的客户身上,以使企业能在日益激烈的市场竞争中立于不败之地,从而提高公司的效益和竞争力。同时本模型在支持企业领导的决策等方面有着极为重要的理论参考价值和实际应用价值。
参考文献:
[1]纪希禹.数据挖掘技术应用实例[M].北京:机械工业出版社,2009.
[2]Jiawei Han,Micheline Kamber.数据挖掘概念与技术[M].北京:机械工业出版社,2006.
[3]梁小强.数据挖掘聚类算法在CRM中的研究与应用[D].乌鲁木齐:新疆农业大学,2009.
[4]朱银欢.数据挖掘技术在客户关系管理中的应用[D].西安电子科技大学,2006.
[5]张效娟.k-means算法的改进和在保险业CRM中的应用[J].大连交通大学学报,2008,(1):76-79.
[6]李志刚.客户关系管理理论与应用[M].北京:机械工业出版社,2007.
[7] Anonymous.Both sides of the CRM divide[J]. Marketing. Toronto:Apr18,2005.Vol.110,Lss.14;p.S14(1 page).
[8]Netter.Database firm unveils Web CRM service[J].Marketing Week.London:Apr 14,2005.p.17.
责任编辑、校对:秦学诗
关键词:聚类分析;客户细分;数据挖掘;改进的k-means算法;客户群
中图分类号:F713.50 文献标识码:A 文章编号:1007-2101(2014)01-0118-04
客户关系管理中的一个重要环节就是客户细分,它也是客户关系管理中的核心概念之一。客户细分是将一个大的客户群或者消费者群体划分成多个细分群体,这些群体中同属于一个细分群体的客户或者消费者的彼此特性相似,而隶属于不同细分群体的客户或者消费者之间是不同的。简而言之,客户细分是根据客户的属性、行为、需求、偏好以及价值等因素划分的客户集合。
在激烈的市场竞争中,客户细分是众多企业识别客户类别、把握客户特征的重要方法。通过客户细分,企业可以更好地识别客户群体,从而达到区别对待有不同需求的客户,采取差异化的营销策略,达到最优化配置客户资源的目的。因此,当今企业如果想在激烈的市场竞争中脱颖而出就应该了解如何对客户群体进行客户细分,从而挖掘出具有消费潜力的客户,并针对这些客户进行合理的资源分配,对不同价值的客户制定出不同的营销策略。
一、聚类分析算法
目前,有很多种聚类算法可以选择,而究竟选择哪种算法主要取决于数据的类型、聚类的目的及其应用。现今,主要的聚类算法可以划分为以下几类:基于划分的方法、基于网格的方法、基于层次的方法和基于密度的方法等。基于划分的聚类方法为给定数据集合指定合理的划分,每个对象被指定给唯一的簇。簇的个数k是需要用户指定的输入参数。一个好的聚类算法的划分准则是:不同类中的对象之间尽可能的远离或者不同,而同一类中的对象之间尽可能的相近或者相关。
k-means算法是其中最常用的划分方法,它以k为参数,再把n个对象分解成为k个簇,以使簇内具有较高的相似度,簇间具有较低的相似度。而相似度的计算是根据一个簇中对象的平均值来进行的。它的算法步骤为:首先在所有的对象中随机的选取k个对象用作初始的聚类中心;然后根据剩余对象与各个中心点之间的距离,将它们分配到距离最近的簇中;再重新计算一遍新得到的每个簇的均值并将它作为新的聚类中心。重复上述步骤直到准则函数收敛为止。
k-means算法的主要优点是算法简洁、快速。它是解决聚类问题的经典算法之一。它在结果簇是密集的,且簇与簇之间区别明显时效果最好。同时对处理较大的数据集时,该算法也是相对高效和可伸缩的。它的时间复杂度是O(nkt),其中n是所有对象的数目,k是簇的数目,t是迭代的次数。但k-means算法同时也具有一定的局限性,主要体现在以下几个方面:
1. 从样本点的集合中随机选取k个中心,这种选择具有盲目性和随意性,它在很大程度上决定了算法的有效性。这个算法的聚类结果对初值的依赖性很强,初始值一旦选择的不好,可能无法得到有效的聚类结果。所以,这也成为k-means算法的一个核心问题,因此对初始中心的选择进行改进既有意义也有必要。
2. 聚类中心的调整,这是涉及聚类准确性的关键问题。k-means算法的处理方法是对每一个已有的分类,聚类中心为该类中所含数据点的几何平均值。而平方误差准则函数在各个簇之间区别明显且数据分布稠密时运用起来比较有效;但是如果各簇的形状和大小差别很大,为使函数收敛则可能会将大的聚类簇分割,从而导致聚类结果的不准确。
二、改进的k-means算法
三、实例分析
本次试验是针对旅游业客户对服务重要性的评价打分进行客户细分,从而将客户细分成几类,针对不同类客户采取不同的决策,最终使企业的效益最大化。
1. 确定数据挖掘的目标。数据挖掘不能盲目地进行,必须非常明确的定义出业务的问题。因此认清数据挖掘的目的是数据挖掘很重要的一步。本次试验是对旅游业的客户进行分类。
2. 收集和预处理数据。在数据挖掘中首要步骤就是收集数据。数据可以从多种渠道中获得,可以从数据仓库中,也可以从现有事务处理系统中得到。获得数据后,从中选择出与业务对象相关的,并且适用于数据挖掘应用的数据。而在收集阶段得到的数据可能存在一系列的问题,表现在数据有缺失或存在自身的不一致性等。因此我们要先做数据的预处理,一般包括消除重复记录、推导计算缺值数据、完成数据类型的转换、消除噪声等。
本次试验的数据来源于数据仓库中抽取的旅游业的客户服务数据,既有客户旅行完的问卷调查,也有网上评分。同时表明了客户对于服务重要性的打分。表1中的数据是客户认为服务重要性的5个打分,分别为1~5从不重要到重要。
3. 数据分析。数据分析的主要目的是:“消减数据维数或降维,即从初始特征中找出真正有用的特征,以减少数据挖掘时要考虑的特征或变量个数。”针对旅游业客户的评价,对于性别等不起决定作用的属性予以删除,主要考虑客户对于时间安排、交通安排、食宿安排、浏览地点及导游服务的评价。
6. 分析模型结果。客户ID为1、2、7和客户ID为3、4的客户都有相类似的服务要求,而客户ID为5、6的客户我们把他归类为第三类客户。其中,当客户的数量达到一定程度时,我们可以根据服务细分原则,把要求类似的客户聚类分组,这样就可以做到针对不同需求的客户做到不同的服务,这样既有利于节约成本,又能给客户提供最为适合的服务。并能使该公司做到自己的服务内容与众不同,从而逐步实现“一对一营销”,提高客户的满意度,也在一定程度上保证了客户的忠诚度,最终使公司效益和利益最大化。 与k-means算法得到的结果比较:如图2所示,k-means算法需要迭代四次后算法收敛,生成最终聚类;改进后的k-means算法只需迭代2次即可得到结果,从而在效率上大大提高,简化了复杂度。
由此得出改进的k-means算法具有可行性和高效性,能够将客户细分,为企业做出正确决策提供依据。
四、总结
聚类分析在数据挖掘中的有着较为广泛的实际应用,本文研究和实现了用改进的k-means算法对旅游行业的客户进行细分建模,并把具有相似特征的客户归为一类,不同特征的客户分为不同的类。并根据建立的模型,可以使企业能够更合理地细分、规划客户群组,针对不同需求的客户群体进行区别对待,从而提供有针对性的服务。最终帮助企业把有效的精力、资源和时间安排在最有价值和潜力的客户身上,以使企业能在日益激烈的市场竞争中立于不败之地,从而提高公司的效益和竞争力。同时本模型在支持企业领导的决策等方面有着极为重要的理论参考价值和实际应用价值。
参考文献:
[1]纪希禹.数据挖掘技术应用实例[M].北京:机械工业出版社,2009.
[2]Jiawei Han,Micheline Kamber.数据挖掘概念与技术[M].北京:机械工业出版社,2006.
[3]梁小强.数据挖掘聚类算法在CRM中的研究与应用[D].乌鲁木齐:新疆农业大学,2009.
[4]朱银欢.数据挖掘技术在客户关系管理中的应用[D].西安电子科技大学,2006.
[5]张效娟.k-means算法的改进和在保险业CRM中的应用[J].大连交通大学学报,2008,(1):76-79.
[6]李志刚.客户关系管理理论与应用[M].北京:机械工业出版社,2007.
[7] Anonymous.Both sides of the CRM divide[J]. Marketing. Toronto:Apr18,2005.Vol.110,Lss.14;p.S14(1 page).
[8]Netter.Database firm unveils Web CRM service[J].Marketing Week.London:Apr 14,2005.p.17.
责任编辑、校对:秦学诗