论文部分内容阅读
数据挖掘是一门新兴的交叉学科,涉及到统计学、人工智能、数据库等多种技术。聚类分析是数据挖掘中的一个重要研究领域,它将数据对象分组成为若干个类,使得类中的对象比较相似,而类间对象差别较大。客户关系管理(Customer Relationship Management,CRM)是将客户信息转化成为积极的客户关系的反复循环过程,客户细分是CRM的首要问题,在客户细分中有效运用数据挖掘技术,可以为企业进行客户分析提供更多的有用信息。本文研究了聚类分析的概念、功能、处理过程及常用算法,重点深入分析了k-means算法。k-means算法是一种基于划分的聚类算法,由于算法对初始聚类中心有较强的敏感性,因而易陷入局部极小。为了减少这种敏感性,本文分析了k-means算法的聚类结果对初值的依赖性,并对初始聚类中心的选取方法进行了系统的分析和研究,提出了一种优化选取初始聚类中心的方法,该方法在处理孤立点数据的能力上也有所改进。同时以某公司的客户数据为背景,应用算法对客户进行细分,得到了较好的效果,验证了改进算法的可行性和有效性。