论文部分内容阅读
随着我国加入世贸组织以及金融体制改革的逐渐深入,越来越多的世界级外资银行涌入中国金融市场,银行业的竞争日益激烈。要想在竞争中站稳脚,银行必须要进行客户细分,将有限的资源用来为有价值的客户服务,并为有价值的客户提供更优质的服务,实现资源价值最大化。支持向量机(Support Vector Machines, SVM)是在统计学习理论基础上开发出来的一种新的、非常有效的机器学习新方法,能够较好地解决以往困扰很多学习方法的一系列问题,如非线性、过学习、高维数、局部极小值等实际问题。目前,SVM受到了越来越多的学者的关注,正在成为人工智能和机器学匀领域新的研究热点。本文在国内外研究的基础上,深入分析影响客户价值的一系列指标,提出了一套全面的信用卡客户细分指标体系;将支持向量机分类方法应用到信用卡客户细分问题中来,并根据信用卡客户细分这个应用问题的存在的一系列问题,如数据分布不平衡和错分代价不同、模糊隶属、支持向量数多导致的学习速度较慢以及多类分类这几大问题,提出了相应的解决方案。本文主要研究工作如下:第一,构建了一套全面的信用卡客户细分指标体系。考虑到客户的个人特征影响着其消费行为,以及其消费行为体现出一定的客户价值,因此,本文提出了从客户个人特征、客户消费行为以及客户贡献度三个角度对客户进行研究,构建了一套细分指标,并将此作为客户细分的依据。第二,提出了基于代价敏感学习(Cost Sensitive Learning, CSL)的支持向量机分类方法。传统的基于数据挖掘的分类方法大多是普适性的学习方法,即假定所有的类别都是同等的,具有相同的误分类代价。然而,在客户细分应用中,这个假设是不成立的,将低价值客户归入高价值客户的误分类代价与将高价值客户归入低价值客户的误分类代价是不一样的。正是考虑到这一点,因此本文将代价敏感学习机制引入客户细分中,并且,与一些研究中依据经验值给定误分类代价不同的是,在本文中作者利用函数来计算误分类代价。第三,提出了基于模糊C均值聚类(Fuzzy C-Means Cluster, FCM)的支持向量机分类方法。在客户细分这个实际应用问题中,每类客户之间的划分并不是那么地绝对,也就是说某个客户可能以不同的程度隶属于多个类,为了能够更好地表明这个模糊隶属的关系,本文采用了模糊C均值聚类来处理这个问题。同时由于银行业务量大,客户数据较多,标准SVM在进行分类时,产生的支持向量机数量多,使得分类速度较慢,为了解决这个问题,本文应用模糊C均值聚类并不是在SVM的目标函数中加入隶属度变量,而是用模糊C均值聚类对样本进行聚类,取得分布在分类边界的c个样本对,然后将这c个样本对作为支持向量,利用这些支持向量和样本来训练SVM。该方法可以约简支持向量的个数,提高SVM的学习速度。第四,提出了基于距离二叉树的多分类器支持向量机学习方法。标准的支持向量机机器学习是基于二类划分的,然而在大多数实际分类问题是多类划分的,因此,需要将二类支持向量机扩展到多分类支持向量机以满足实际应用需要。本文采用的基于距离二叉树的多类分类方法解决了传统二叉树的结构生成难问题,并提高了其泛化能力。第五,设计了一个基于数据挖掘的客户细分原型系统。在前面研究工作的基础上,利用所提出的基于代价敏感的多分类支持向量机客户细分模型来设计系统,实现客户细分功能。