改进的k—means聚类算法在客户细分中的应用研究

来源 :河北经贸大学学报 | 被引量 : 0次 | 上传用户：jeffbee

【摘要】

：

【作者】

：

杜巍　赵春荣等

【出处】

：

河北经贸大学学报

【发表日期】

：

2014年1期

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

　　摘要：聚类分析是数据挖掘的一种重要方法，将它应用在客户细分中，可以识别出不同的客户群，从而针对不同的客户群制定相应的营销政策，使企业效益最大化。针对聚类分析中k-means算法的不足，运用改进的聚类算法对旅游业客户进行细分，从而使企业能够更合理地细分、规划客户群组，针对不同需求的客户群体进行区别对待，得到了较好的效果，验证了改进算法的可行性和高效性。
　　关键词：聚类分析；客户细分；数据挖掘；改进的k-means算法；客户群
　　中图分类号：F713.50 文献标识码：A 文章编号：1007-2101（2014）01-0118-04
　　客户关系管理中的一个重要环节就是客户细分，它也是客户关系管理中的核心概念之一。客户细分是将一个大的客户群或者消费者群体划分成多个细分群体，这些群体中同属于一个细分群体的客户或者消费者的彼此特性相似，而隶属于不同细分群体的客户或者消费者之间是不同的。简而言之，客户细分是根据客户的属性、行为、需求、偏好以及价值等因素划分的客户集合。
　　在激烈的市场竞争中，客户细分是众多企业识别客户类别、把握客户特征的重要方法。通过客户细分，企业可以更好地识别客户群体，从而达到区别对待有不同需求的客户，采取差异化的营销策略，达到最优化配置客户资源的目的。因此，当今企业如果想在激烈的市场竞争中脱颖而出就应该了解如何对客户群体进行客户细分，从而挖掘出具有消费潜力的客户，并针对这些客户进行合理的资源分配，对不同价值的客户制定出不同的营销策略。
　　一、聚类分析算法
　　目前，有很多种聚类算法可以选择，而究竟选择哪种算法主要取决于数据的类型、聚类的目的及其应用。现今，主要的聚类算法可以划分为以下几类：基于划分的方法、基于网格的方法、基于层次的方法和基于密度的方法等。基于划分的聚类方法为给定数据集合指定合理的划分，每个对象被指定给唯一的簇。簇的个数k是需要用户指定的输入参数。一个好的聚类算法的划分准则是：不同类中的对象之间尽可能的远离或者不同，而同一类中的对象之间尽可能的相近或者相关。
　　k-means算法是其中最常用的划分方法，它以k为参数，再把n个对象分解成为k个簇，以使簇内具有较高的相似度，簇间具有较低的相似度。而相似度的计算是根据一个簇中对象的平均值来进行的。它的算法步骤为：首先在所有的对象中随机的选取k个对象用作初始的聚类中心；然后根据剩余对象与各个中心点之间的距离，将它们分配到距离最近的簇中；再重新计算一遍新得到的每个簇的均值并将它作为新的聚类中心。重复上述步骤直到准则函数收敛为止。
　　k-means算法的主要优点是算法简洁、快速。它是解决聚类问题的经典算法之一。它在结果簇是密集的，且簇与簇之间区别明显时效果最好。同时对处理较大的数据集时，该算法也是相对高效和可伸缩的。它的时间复杂度是O（nkt），其中n是所有对象的数目，k是簇的数目，t是迭代的次数。但k-means算法同时也具有一定的局限性，主要体现在以下几个方面：
　　1. 从样本点的集合中随机选取k个中心，这种选择具有盲目性和随意性，它在很大程度上决定了算法的有效性。这个算法的聚类结果对初值的依赖性很强，初始值一旦选择的不好，可能无法得到有效的聚类结果。所以，这也成为k-means算法的一个核心问题，因此对初始中心的选择进行改进既有意义也有必要。
　　2. 聚类中心的调整，这是涉及聚类准确性的关键问题。k-means算法的处理方法是对每一个已有的分类，聚类中心为该类中所含数据点的几何平均值。而平方误差准则函数在各个簇之间区别明显且数据分布稠密时运用起来比较有效；但是如果各簇的形状和大小差别很大，为使函数收敛则可能会将大的聚类簇分割，从而导致聚类结果的不准确。
　　二、改进的k-means算法
　　三、实例分析
　　本次试验是针对旅游业客户对服务重要性的评价打分进行客户细分，从而将客户细分成几类，针对不同类客户采取不同的决策，最终使企业的效益最大化。
　　1. 确定数据挖掘的目标。数据挖掘不能盲目地进行，必须非常明确的定义出业务的问题。因此认清数据挖掘的目的是数据挖掘很重要的一步。本次试验是对旅游业的客户进行分类。
　　2. 收集和预处理数据。在数据挖掘中首要步骤就是收集数据。数据可以从多种渠道中获得，可以从数据仓库中，也可以从现有事务处理系统中得到。获得数据后，从中选择出与业务对象相关的，并且适用于数据挖掘应用的数据。而在收集阶段得到的数据可能存在一系列的问题，表现在数据有缺失或存在自身的不一致性等。因此我们要先做数据的预处理，一般包括消除重复记录、推导计算缺值数据、完成数据类型的转换、消除噪声等。
　　本次试验的数据来源于数据仓库中抽取的旅游业的客户服务数据，既有客户旅行完的问卷调查，也有网上评分。同时表明了客户对于服务重要性的打分。表1中的数据是客户认为服务重要性的5个打分，分别为1～5从不重要到重要。
　　3. 数据分析。数据分析的主要目的是：“消减数据维数或降维，即从初始特征中找出真正有用的特征，以减少数据挖掘时要考虑的特征或变量个数。”针对旅游业客户的评价，对于性别等不起决定作用的属性予以删除，主要考虑客户对于时间安排、交通安排、食宿安排、浏览地点及导游服务的评价。
　　6. 分析模型结果。客户ID为1、2、7和客户ID为3、4的客户都有相类似的服务要求，而客户ID为5、6的客户我们把他归类为第三类客户。其中，当客户的数量达到一定程度时，我们可以根据服务细分原则，把要求类似的客户聚类分组，这样就可以做到针对不同需求的客户做到不同的服务，这样既有利于节约成本，又能给客户提供最为适合的服务。并能使该公司做到自己的服务内容与众不同，从而逐步实现“一对一营销”，提高客户的满意度，也在一定程度上保证了客户的忠诚度，最终使公司效益和利益最大化。　　与k-means算法得到的结果比较：如图2所示，k-means算法需要迭代四次后算法收敛，生成最终聚类；改进后的k-means算法只需迭代2次即可得到结果，从而在效率上大大提高，简化了复杂度。
　　由此得出改进的k-means算法具有可行性和高效性，能够将客户细分，为企业做出正确决策提供依据。
　　四、总结
　　聚类分析在数据挖掘中的有着较为广泛的实际应用，本文研究和实现了用改进的k-means算法对旅游行业的客户进行细分建模，并把具有相似特征的客户归为一类，不同特征的客户分为不同的类。并根据建立的模型，可以使企业能够更合理地细分、规划客户群组，针对不同需求的客户群体进行区别对待，从而提供有针对性的服务。最终帮助企业把有效的精力、资源和时间安排在最有价值和潜力的客户身上，以使企业能在日益激烈的市场竞争中立于不败之地，从而提高公司的效益和竞争力。同时本模型在支持企业领导的决策等方面有着极为重要的理论参考价值和实际应用价值。
　　参考文献：
　　[1]纪希禹.数据挖掘技术应用实例[M].北京：机械工业出版社，2009.
　　[2]Jiawei Han，Micheline Kamber.数据挖掘概念与技术[M].北京：机械工业出版社，2006.
　　[3]梁小强.数据挖掘聚类算法在CRM中的研究与应用[D].乌鲁木齐：新疆农业大学，2009.
　　[4]朱银欢.数据挖掘技术在客户关系管理中的应用[D].西安电子科技大学，2006.
　　[5]张效娟.k-means算法的改进和在保险业CRM中的应用[J].大连交通大学学报，2008，（1）：76-79.
　　[6]李志刚.客户关系管理理论与应用[M].北京：机械工业出版社，2007.
　　[7] Anonymous.Both sides of the CRM divide[J]. Marketing. Toronto：Apr18，2005.Vol.110，Lss.14；p.S14（1 page）.
　　[8]Netter.Database firm unveils Web CRM service[J].Marketing Week.London：Apr 14，2005.p.17.
　　责任编辑、校对：秦学诗

其他文献

基于供求视角的“中等收入陷阱”分析与对策

摘要：中国已进入中等收入国家行列，正面临着“中等收入陷阱”的威胁。从供给和需求角度看，长期、可持续的经济增长是在有效需求与潜在供给的耦合作用下实现的。通过分析日本与韩国成功跨越“中等收入陷阱”的经验来剖析中国应对“中等收入陷阱”的风险，认为通过释放有效总需求和提高长期总供给能力，我国能够顺利跨越“中等收入陷阱”。相应的对策为：以初次分配改革为重点推进收入分配改革，完善再分配政策；实施创新驱动战略，

期刊

私人财产权制度与资本主义市场经济

摘要：从经济思想史角度看，个人主义和自由主义构成了西方财产权思想的来源及哲学基础。近代欧洲社会确立私人财产权利与资本主义市场经济发展有着密切的关系，而这一进程体现了人类历史的进步。但是，私人财产权不是永恒的而是一个历史范畴。马克思用历史唯物主义和生产关系分析方法揭示了资本主义私人财产权制度的进步意义与内在矛盾。用马克思的财产权思想和方法剖析当代资本主义财产权结构和财富差距时我们看到，资本主义财产权

期刊

北京马克思主义经济学青年论坛第三次研讨会——暨“社会透视

“北京马克思主义经济学青年论坛”第三次研讨会于2013年12月6日在北京中国社会科学院学术报告厅举行。会议开幕式由中国社会科学院马克思主义研究院原理部杨静副研究员主持，中国社会科学院马克思主义研究院副院长樊建新致辞，中国社会科学院马克思主义研究院原理部主任胡乐明教授、中国人民大学经济学院经济系主任邱海平教授以及中国人民大学马克思主义研究院副院长张旭教授分别向论坛组织结构的成立表示祝贺并寄语。此次研

期刊

环保资金的排污权信贷筹集方式及其发展问题探讨

摘要：环境污染正成为掣肘我国经济发展和社会进步的重要因素，巨大的资金缺口严重制约了我国低排放生产模式改造的步伐，为提供节能减排资金支持，排污权绿色信贷金融创新应运而生。明确排污权的法律地位并全面落实推广，严控无证排污和偷排行为，提高排污权数量核算和发放的科学性，确保与排污量严格对应的排污权存量及其交易市场通畅，才能从根本上拓宽排污权信贷的发展道路，并能真正发挥出缓解环保资金压力的功能。　　关键词：

期刊

论马尔库塞政治经济学批判中的历史性思想

摘要：个体存在的历史性是马尔库塞对政治经济学进行批判的理论基础。政治经济学在发展过程中逐渐确立起了实证主义的研究方法，实证主义从与主体相分离的客观经验世界出发，运用自然科学的方法提炼经济活动中超历史的永恒规律，由于忽视人在资本主义社会中的劳动异化，最终使政治经济学蜕变为一种意识形态。马尔库塞从人存在意义的角度来理解对象世界，其历史性思想强调个体在劳动过程中与对象世界的统一，以及在具体历史处境中的自

期刊

发展性绩效考核如何影响员工组织认同？

摘要：构建以考核公平感为中介变量的结构方程模型，利用信度、效度分析，确定了发展性考核、考核公平感、组织认同的度量因素，验证了三者之间的关系路径。结果表明：发展性考核正向促进组织认同和考核公平感；考核公平感在发展性考核正向促进组织认同的过程中起部分中介作用。　　关键词：发展性绩效考核；员工；组织认同；考核公平感；中介效应；路径系数分析；信度分析；效度分析；“黑箱”　　中图分类号：F240 文献标识码

期刊

整体主义方法论下的企业效率效益决定及差异性衡量

摘要：中国盛行的“国企效率效益低下”概念是西方封闭系统方法论指导下、价值观驱使下和双重标准作用下的唯心主义、形而上学的产物。因此，国企效率效益衡量不仅体现了唯物主义与唯心主义、整体主义与封闭主义方法论和理论对抗，也体现了一种价值观对抗。从包括西方经济学在内的交叉科学方法看，1949—1980年对中国国企效率效益产生影响的既包括西方经济学的一般共性要素，又包括具有中国发展自身特性的要素。它们的集成作

期刊

国内外食品安全的经济学机理及研究动态

摘要：以安全食品供应链为主线，在介绍农户农药使用和新技术采纳的相关研究的基础上，对加入安全变量的成本函数的调整和召回机制对企业影响的研究进行了梳理。在零售商与运输商的垂直整合问题上，主要涉及所有权结构优化理论和整个供应链的领导者理论；而对农户与加工企业的关系，详细说明了农户与加工企业契约约束下的农民组织稳定性的研究方法。　　关键词：安全食品供应链；食品安全监管；农户行为；企业行为；垂直整合；农民组

期刊

“混合所有制经济”概念与内涵的交叉科学检验

摘要：从市场经济理论与实践看，把发展“混合所有制经济”理解为建立“资本混合型企业”是概念上的张冠李戴，以为通过行政手段把私有资本混入国企就是发展混合所有制经济是荒诞不经的。而西方“资本联合”作为一个企业的（资本）组织、运作形式之一也与这种行政手段催生的“资本混合型企业”有本质区别。同时，任何一个企业的组织形式都必须与企业性质和根本目的保持高度一致，社会主义如此，资本主义也如此。中国国企代表全体人民

期刊

区域新型城镇化稳健快速发展的几个关键问题

摘要：在中国经济总量的“第一方阵”中，山东城镇化水平较长期地落后于粤苏浙等沿海省份，严重制约其未来经济社会可持续发展和率先达到小康目标的实现。比较分析指出，在未来较长一段时期，山东应以树立先进的城镇化发展理念为先导，以加大体制改革为重要动力和第一要务，以铁路现代化、保障房等社会保障体系构建为重要抓手，以新型城镇化和海洋科教研究为智库支撑，以人才强省为重要战略，唱好“海经”，重视海洋强省和城镇化两大

期刊

改进的k—means聚类算法在客户细分中的应用研究

与本文相关的学术论文