论文部分内容阅读
聚类是数据挖掘中一种非常重要的方法,在模式识别,图像处理和信息提取等领域有着重要的应用。每种聚类算法都有其特有的优势和适合的应用场合。同时,不同的应用有其不同的特点,这就需要研究算法在某个特殊场合下的应用。
本论文结合江苏号百前向客户数据挖掘项目,对面向客户细分的聚类问题进行了研究,针对此项目的特点提出了相适应的聚类算法框架--基于改进DBSCAN的增量聚类算法框架。论文的主要工作如下:
1.此算法框架选取改进的DBSCAN作为基础的聚类算法,使得算法具有DBSCAN的优势,同时效率较高。算法实施时,先分别在基础数据和新增数据上进行聚类,然后将两个聚类结果合并,形成最终结果。
2.算法中数据相似性的度量和簇中心的计算能应用于同时包含数值型属性和分类型属性,即复合属性的情况。
3.进行了增量聚类。由于不断有新数据进入,因此先在基础数据上进行聚类,然后在新增数据上进行聚类,最后再将两个聚类结果进行合并。在分别进行聚类的时候,使用基于代表对象的改进DBSCAN方法。在合并聚类的时候,仍然用代表对象代表每个簇,然后通过代表对象之间的联系来进行合并。
4.使用决策树对聚类进行特征描述,加强了用户对聚类结果的理解,更加有助于营销建议的提出和决策的实施。
最后,论文将提出的算法应用于江苏号百前向客户数据挖掘项目,使用sas和spss等工具,得到客户细分的聚类结果。