论文部分内容阅读
聚类分析是数据挖掘中的一个重要研究领域,是一种数据划分或分组处理的重要手段和方法。聚类无论在商务领域,还是在生物学、Web文档分类、图像处理等其他领域都得到了有效的应用。目前聚类算法大体上分为基于划分的方法、基于层次的方法、基于密度的方法、基于网格的方法、基于模型的方法以及模糊聚类。k-means算法是聚类算法中主要算法之一,它是一种基于划分的聚类算法。本文在该算法的研究基础上,试图将该算法进行改进。同时在算法应用方面,将聚类技术用于客户细分方面,客户细分是企业能够进行有效客户管理的前提和依据,因此这方面的研究具有实际指导意义。本文第一部分,主要阐述所研究对象的背景资料以及本文所要达到的目的,并说明研究的思路和整体内容。第二部分,主要介绍聚类分析的基础知识和聚类分析的基本方法,分析现有的不同算法,相互比较得出各个算法的优缺点。分析了基于划分的典型算法K-means算法,对其优点和缺点进行了详细的分析。第三部分为本文的应用部分,将聚类技术应用于客户细分,通过层次分析法建立客户的价值体系,量化客户价值;在此基础上应用聚类技术,将客户划分成不同的类,由此来有效的开展客户管理,具有一定的实际意义。目前已经有一些客户价值评价体系,但度量模型不够成熟。衡量指标一般是客户对于企业的直接利润贡献,定量上也存在一定的难度。本文运用数据挖掘的方法,从企业的实际情况出发,通过一系列可操作的客户价值评价指标,建立适合企业发展的客户价值评价模型,并由此来度量客户价值、细分客户,建立客户价值管理的决策支持系统。第四部分为本文的核心章节。主要对k-means算法进行了改进。改进的算法A有效的解决了算法对初始值K的依赖,能够自动生成类数K;同时该算法对初始中心点选取比较严格,各中心点的距离较远,这样避免了初始聚类中心会选到一个类上,一定程度上克服了算法限入局部最优状态。为能进一步提高算法的计算效率,提出了改进算法B,该算法结合了抽样技术和层次凝聚算法对原算法进行了改进,得到的新算法B更有效。最后,叙述了论文的主要工作,并指出进一步的研究方向。