基于数据挖掘的银行客户分类研究

来源 :科学与财富 | 被引量 : 0次 | 上传用户：zhengj5817

【摘要】

：

【作者】

：

顾德军

【出处】

：

科学与财富

【发表日期】

：

2016年13期

【关键词】

：

客户细分数据挖掘 k-means

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

　　摘要：针对银行竞争日益加剧，传统的客户管理方式日益难以满足客户需求的现状，本文提出一种基于改进的k-means聚类算法的客户细分方法，该方法针对k-means聚类算法易受噪声点干扰、对初始的中心点非常敏感、无法确定聚类个数的不足，通过剔除低密度数据点的方法去除噪声点，并结合数据点的密度和相对距离，选取间隔较远的高密度数据点作为初始化中心点，最后通过改进的silhouette评价指标确定聚类个数及聚类结果。本文最后基于该方法对银行客户数据进行聚类分析，并根據聚类结果制定出针对性的营销策略，实验结果表明：该方法能很好地解决传统k-means聚类算法的不足，在实际应用中可以解决银行客户细分问题，有助于提升营销决策质量和客户关系管理。
　　关键词：客户细分；数据挖掘；k-means
　　0 引言
　　近年来，随着国家逐步加大对金融政策的改革，市场存、贷利率逐步放开，商业银行之间的竞争日益激烈。而银行之间的竞争根本上则是对客户的争夺，如何赢得客户并将客户价值最大化已经成为金融行业生存的发展的决定性因素。然而随着客户的需求日益多样化，传统的营销方式已经日益难以满足客户需求，在此背景下，银行必须充分挖掘客户信息，从而了解自己客户群的特征以及不同需求，进而对客户进行分类管理，实行针对性的营销、维护以及淘汰。这样不仅可以稳定、拓展客户群益，同时也能最大限度降低客户管理费用，从而实现银行利润最大化。
　　信息的高速发展以及银行大数据平台的日益完善，使银行对客户数据的深入挖掘成为可能。本文在此背景下，提出一种基于改进的的聚类分析方法，并基于该方法对某银行客户样本数据进行聚类分析，将客户细分成有共同特征的客户群，最后针对不同的客户群体制定出有效的营销策略。
　　1.数据提取
　　客户分析维度的选取对模型的分析结果有着决定性的意义，合理的分析维度不仅需要满足建模的可行性，而且需要能从各个角度反映客户的价值，同时保证其自身之间的独立性和完整性。本文结合银行实际情况，选取了以下10个客户属性作为分析的维度，如表1所示。
　　根据上述客户属性，本文提取了某银行自2014年至2015年开户的所有客户数据，共21078条客户数据。
　　2.数据预处理
　　客户数据中包含不完整、含噪声的数据，如果直接使用这样的数据进行分析将会对分析的结果产生严重的影响，因此对原始数据进行预处理就显得尤为重要。本文预处理过程分为缺失值处理、数据标准化以及数据标准化以3个步骤。
　　2.1缺失值处理
　　本文提取的数据中，大部分客户属性的数据相对完整，尤其对数据挖掘结果影响较大的客户价值属性（储蓄日均、理财日均等）比较完整，仅部分客户基本属性有所缺失，具体分析为：年收入属性含有1742个缺失值，工作类型属性含有946缺失值，另外文化程度还有1256个缺失值。考虑到这3个属性对挖掘的影响不是很大，本文采用取中间值替代的方法，来填补这些空缺值。
　　2.2 数据类型转换
　　反映客户特征的属性，由于各自描述事物的差异，因而所属的字符类型也会有明显的差异，但是在实际的数据挖掘过程中，我们处理的往往都是数值型的数据，因而需要将字符串等其他类型的数据统一转换成数值类型的数据，如：性别属性中，用1表示“男”，2表示“女”，具体转换详情如表1所示，这里不作过多阐述。
　　2.3数据标准化
　　样本数据中，各属性度量单位的不同可能会对数据挖掘的结果产生重大影响，因此在对数据进行模型分析之前，需要对数据进行标准化处理，将转化为不受单位限制的无量纲的纯属值。本文采用标准差变换，公式为：
　　其中，为样本数据第j个属性的均值， sj为第j个属性的标准差，计算公式为：
　　数据标准化后的数据如下：
　　3 聚类分析
　　在聚类算法中， k-means算法使用最为广泛，然而也存在如下几个不足之处：1.初始聚类中心的选取对聚类结果影响比较大。2.在聚类前必须输入簇的数目k值，但是这k值通常是无法事前确定的。3.算法对于噪声数据与异常数据非常敏感。本文针对k-means算法的上述缺陷对算法进行改进，并基于该方法对样本数据进行聚类分析。
　　3.1 噪声点剔除
　　处于数据集的低密度区域的数据对象被称为噪声点或孤立点，为了避免这些数据点对聚类过程的干扰，我们首先要将这些数据点剔除。本文首先计算各数据点的点密度，将点密度小于某一阈值的数据点剔除，具体算法如下：
　　1）计算数据集中各数据点之间的平均距离，公式如下：
　　其中n为样本总数，为点i与点j之间的欧式距离。
　　2）计算数据集中每一个数据点的密度参数。对于空间中任一数据点p，以p为中心，以AvgDist为半径的区域内数据对象的个数称为点的密度参数，记作density（p，AvgDist），公式为：
　　其中u（x）公式表示为：
　　4）遍历数据集，如果某一点的密度参小于平均密度参数的，则认为该点为噪声点，将其从数据集中剔除。计算完毕后新的数据集记作。
　　噪声点剔除的效果如下图所示，可以看出经过噪声处理后，低密度的噪声点被去除。
　　3.2 初始点选取
　　k-means聚类算法对初始的中心点较为敏感，不合理的初始中心点会导致聚类结果局限于局部最优解，而不是全局最优，最终影响聚类的结果。本文提出一种改进的初始点选取方法，即选取距离相隔较远的点密度最大的点作为初始中心点，算法如下：
　　1）根据点密度计算公式（7）重新计算数据集中每一个数据点的密度参数。
　　2）将最大点密度的数据点作为第一个初始化中心点加入到集合中，同时将其从数据集D中删除。　　3）计算数据集D中各点到集合中各初始中心点的距离之和，并计算平均距离，计算公式为：
　　4）遍历数据集D，将到初始中心点距离之和大于平均距离的数据点加入到数据集C中。
　　5）遍历数据集C，将最大密度的数据点作为下一个初始化中心点加入到数据集A中，同时将其从数据集D中删除，并清空数据集C。
　　6）重复步骤（3）、（4）、（5）直至集合C中的数据点个数达到kmax。由于银行客户类别数通常不会超过10，因此本文此处kmax的取值为10。
　　算法執行完毕后，数据集A中的初始化中心点处于整个数据集中高密度区域内，并且相互之间相距较远，这样可以很好地描述数据集中的数据分布情况，提高k-means聚类结果的精度。
　　3.3 k-means聚类
　　k-means聚类算法在聚类之前无法确定分类个数k值， k的取值过大或过小都不能准确反映客户分类情况，使聚类失去意义。本文采用改进的轮廓系数指标对聚类的结果进行评判，由于在传统的轮廓系数计算公式中，需要反复计算每一个点到其他所有点的距离，必然导致计算量较大，本文对该公式稍作改进，使用中心点替代的方法计算轮廓系数，改进后的公式如下：
　　确定聚类有效的标准是使聚类结果达到类内紧密、类间远离。从类内紧密性角度出发，我们希望类内距离pj 越小越好，从类间远离性角度出发，我们希望最小类间距离sj越大越好。同时为了使指标不受量纲影响，我们通过类内距离和最小类间距离的最大值对该距离差进行压缩，使其落在区间之间。因此轮廓系数值silhouette在-1和1之间变化，聚类效果越好，该值越大，反之聚类效果越差，则该值就越小。
　　本文结合k-means算法以及silhouette聚类有效性指标，对样本数据进行聚类分析，算法如下：
　　1）选取聚类数的搜索范围 [kmin，kmax]
　　2）从kmin循环至kmax，执行以下步骤：
　　a）从集合C中按加入该集合的先后顺序取出k个数据点，其中k为簇的个数，即
　　b）以这k个数据点作为初始聚类的中心点，利用k-means算法进行聚类。
　　c）聚类完成后，利用公式（12）计算本次聚类的silhouette silhouette 值。
　　3）循环完毕后，比较每次聚类的silhouette值，选取silhouette值最大时的k值以及聚类结果作为最终的聚类结果。
　　由于银行中客户类别数一般不会超过10，因此本文中， kmin取值为2， kmax取值为10，实验结果如下：
　　从上表中可以看出，当取值为5时，轮廓系数值最大，此时的聚类结果达到类内最紧密、类间最远离，因此本文选择 =5为最优解，最终聚类结果如下表所示：
　　4 聚类结果分析
　　聚类分析完成后，我们还需要对这5类数据进行客户特征分析，根据每一类不同的客户特征制定不同的营销策略。本文通过计算每一类数据均值和标准差，并结合银行实际业务，对每一类客户数据进行分析。
　　由表5分析可以看出第一类客户特点：该类客户年龄较小，文化程度较高，持有比高级别的银行卡，储蓄、保本理财、保险、国债等风险较小收益较低业务的指标值较小，而非保本理财、基金、证券等风险较大收益较高业务的指标值较大，此外贷款金额较大。对于这类客户，在客户关系维护时，应该针对客户年龄较低的特点，制定适合年轻人的维护方式。在业务营销方面，应该重点营销收益较高的业务或者贷款联动性业务，如基金业务、存贷盈业务等。
　　由表6分析可以看出第二类客户特点：该类客户储蓄、理财、基金等各项业务指标值均较低，但是最高卡级别比较高。可以看出，该类客户为流失的高价值客户，对于这类客户应该认真分析其流失原因，并有针对性地做好客户维挽工作。
　　由表7分析可以看出第三类客户特点：该类客户最高卡级别较低，年收入较低，储蓄、理财、基金等各项业务指标值均较低。可以看出该类客户为低价值客户，在银行资源有限的情况下，可以考虑停止针对该类客户的营销活动，而将资源投向产出比更高的高价值客户群。
　　由表8分析可以看出第4类客户特点：该类客户年龄较大，最高卡级别较高，储蓄、保本理财、保险等风险较小收益较低业务的指标值较大，相反基金、证券等风险较大收益较高业务的指标值较小，贷款金额较小。在客户关系维护方面，应该针对客户年龄较大的特点，制定适合中老年人的维护方式。在业务营销方面，应该重点营销储蓄、保本理财等稳健性收益产品。
　　由表9分析可以看出第5类客户特点：该类客户年收入较高，文化程度较高，并且贷款金额较大，但是储蓄、理财、基金等其他业务指标值很小，最高卡级别也较低。该类客户为潜在客户，在客户关系维护方面，应该针对客户文化层次较高的特点，制定侧重文化艺术的高品位维护方式。在业务营销方面，建议以贷款业务为突破口，展开交叉营销。
　　结束语
　　为了更好地实现银行客户分层管理，提升营销决策质量和客户关系管理，本文提出了一种基于改进的聚类算法，该方法能解决传统算法易受噪声点干扰、对初始的中心点非常敏感以及无法确定聚类个数的不足，在实际应用中可以很好地解决银行客户细分问题。此外本文最后根据聚类结果并结合银行自身状况，制定出针对性的营销策略，这对银行如何提升客户关系管理、增强客户体验有一定的参考意义。
　　本方法仍有一些不足之处，当客户数据量很大时，会出现计算时间过长的现象，因此在后续的研究过程中，会考虑引入分布式处理方式来提高数据处理的速度。
　　参考文献：
　　[1] Shunye W. An improved k-means clustering algo-rithm based on dissimilarity [C]//Mechatronic Sci-ences，Electric Engineering and Computer （MEC），Proceedings 2013 International Conference on IEEE，2013：2629-2633. 　　[2] 孟子健，马江洪.一种可选初始聚类中心的改进均值算法[J].理论新探，2014，12（3）
　　[3] QIAN JIANJUN， YANG JIAN， XU YONG. Local structure-based image decomposition for feature extraction with applications to face recognition[J]. IEEE Transtractions on Image Processing ， 2013，22（9）：3591- 3603
　　[4] 邓摇海，覃摇华，孙摇欣.一种优化初始中心的 K-means聚类算法[J] .计算机技术与发展，2013，23（11）：98- 102.
　　[5] 方方.“大数据”趋势下商业银行应对策略研究[J].新金融，2014（12）：25-28
　　[6] Ghemawat S. ACM Syrup on Operating Systems Principles[M]. New York ACM， 2013：29-43
　　[7] 陆珉峰，虞鹏飞.互联网金融背景下商业银行“大数据”战略研究[J]. 经济与管理，2015（3）：31-38
　　[8] 张建珍，张秀珍，周星星. 模糊聚类算法在银行客户分类管理中的应用[J]. 智能计算机与应用， 2014， 6 （4）：78 -82
　　[9] 曾小青. 基于消费数据挖掘的多指标客户细分新方法[J]. 计算机应用研究， 2013，30（10）：2944-2947
　　[10] 张顺龙，库涛，周浩. 针对多聚类中心大数据集的加速K-means 聚类算法[J]. 计算机应用研究，2015，33（9）：36-40
　　[11] Luo Biao，Yang Wei-wei. Customer value classification Model and application based on analytic network process and K-means clustering[J]. Journal of Computer Applications， 2013，33（10）：2954-2959
　　[12] 馮波，郝文宁. k-means算法初始聚类中心选择的优化[J]. 计算机工程与应用，2013，（14）
　　[13] 谢娟英，王艳娥.最小方差优化初始聚类中心的K-means算法[J].计算机工程，2014，40（8）：205-211
　　[14] 谭伟明，黄杰.大数据驱动银行业务创新和转型发展的思考[J]. 区域金融研究，2015，5：46-49

其他文献

抗草甘膦棉花的光合特性、抗性基因定位及分子鉴定

草甘膦是目前使用面积最大、使用范围最广的灭生性除草剂,其毒性机制主要是竞争性抑制莽草酸途径中的EPSP合酶,导致芳香族氨基酸合成受阻,从而扰乱了生物体正常氮代谢而死亡。草甘膦结构简单、生产成本低、除草效果好、低毒无残留,无论从其自身特性还是从货源供应上都是很理想的除草剂,但它作为一种非选择性除草剂,对农作物同样有灭生性作用,限制了草甘膦在农业生产中的应用范围。抗草甘膦作物品种的培育,将为棉田化学除

学位

棉花草甘膦抗性基因分子检测生理指标

针灸与吞咽训练治疗脑卒中后吞咽障碍研究

目的:探讨针灸和吞咽训练联合治疗脑卒中后吞咽障碍的效果.方法:选取2014年5月~2015年5月我院收治的182例脑卒中后吞咽障碍患者,随机分成两组,对照组针灸治疗,治疗组针灸联合

期刊

针灸吞咽训练脑卒中后吞咽障碍效果研究

选煤厂工艺过程的控制

如果选煤厂要取得最高效率并为市场提供均一的高质量产品,根本的问题是工艺过程的控制。选煤厂的最新发展方向是应用计算机控制,然而这只有在工艺控制系统精确可靠时才能实现

期刊

选煤厂工艺过程研究与开发选煤用计算机控制跳汰机密度计重介选煤工艺原煤

立体化学教学中易混淆的一些概念

立体化学教学中易混淆的一些概念彭万华（湖北三峡学院化学系宜昌４４３０００）杨小平谭凤姣（湘潭师范学院化学系４１１１００）自从范荷夫（Ｖａｎ＇ｔＨｏｆ）和勒贝尔（ＬｅＢｅｌ）提出一切分子都具有三维结构的论点以来，立体化学开始迅猛发

期刊

立体化学化学教学基础有机化学有机金属化学有机合成学科无机化学三维结构前沿领域教学内容生物学分子贝尔

无瘤操作技术在恶性肿瘤手术患者中的应用体会

手术是恶性肿瘤的主要治疗方法,在手术过程中无瘤操作技术是手术医生及洗手护士应具备的基本业务素质及水平.无瘤操作技术对于恶性肿瘤患者的治疗效果及预后有着重要的意义,

期刊

无瘤操作技术洗手护士恶性肿瘤应用

中草药提取物对烟草赤星病防治技术研究

烟草是贵州省重要的经济作物,近年,随着烟草的大面积栽种,烟草赤星病频繁发生,对烟叶的品质造成了很大的危害,严重影响了当地农民的生产活动和经济利益。目前,防治烟草赤星病

学位

中草药提取物烟草赤星病防治技术

PPV治疗ARDS患者的护理研究进展

了解ARDS患者俯卧位通气的治疗机制和实施措施以及护理要点的最新进展,为临床工作提供依据.

期刊

俯卧位ARDS护理

2型糖尿病大鼠周围神经病变时Pou3f3/Brn-1 mRNA的表达

目的:观察2型糖尿病大鼠周围神经病变时Pou3f3/Brn-1 mRNA表达变化,以推测其与周围神经病变的生理病理关系.方法:大鼠分为普通饲料喂养组(正常对照组,NC)、高脂饲料喂养组(高

期刊

pou3f3/Brn-1糖尿病周围神经病变大鼠

关于胸部CT体检对乳腺癌临床早期诊断的价值分析

目的:探究胸部体检中C T对于乳腺癌早期诊断所具有的临床价值.方法:择取2013年6月到2015年7月期间于本院就诊的乳腺癌患者92例,均经手术病理证实.为所有患者行胸部CT体检,分

期刊

乳腺癌CT胸部体检早期诊断临床价值

包菜立枯丝核菌球腐病的病原学研究

球腐病是在包菜上发生的一种重要病害,能引起整个包菜叶球的腐烂,严重影响包菜的产量与品质。该病多年来由于流行范围不广,造成的经济损失不大,一直未引起研究者对此病的关注

学位

立枯丝核菌包菜病原鉴定生物学特性侵染过程胞壁降解酶

基于数据挖掘的银行客户分类研究

与本文相关的学术论文