论文部分内容阅读
摘要:聚类分析在数据挖掘领域、机器学习领域以及统计学领域都是一个重要的研究方向,并得到了广泛地应用。本文介绍了聚类的应用领域、主要聚类方法,并提出一个具有一定可用性的业务套餐匹配模型。
关键词:数据挖掘;聚类分析;模型
中图分类号:TP311.13文献标识码:A文章编号:1007-9599 (2013) 06-0000-02
聚类是一个将给定数据集划分为多个类的过程,并且同一个聚类中数据对象的相似度较高,不同聚类间的数据对象的具有较低相似度。通常使用距离来表征对象间的相似度。聚类分析在众多领域都有广泛地研究和应用。
1聚类分析的典型应用
聚类分析就是从给定的数据集中探索数据对象间潜在的有价值的关联,研究人员使用此关联对所得聚类中的数据对象进行统一地分析处理。使用聚类分析作用于数据集,能识别出数据集的稀疏和稠密区域,进一步发现其整体分布模式,以及数据属性之间有价值的相关性。在商业领域,聚类分析可以帮助营销部门划分目标客户群体,根据其不同的特征和消费心理制定适宜的营销策略,以提升营销效益;在生物学领域,聚类分析可用于划分动植物的层次结构,根据基因功能进行分类以对人类基因构造有更深入的了解;在经济领域,聚类分析可用于对不同地区经济发展能力进行总体评价,以及同一地区不同城市间经济发展能力的划分。聚类分析还可以用于挖掘网页信息中潜在的有价值的信息。在数据挖掘应用领域,聚类分析既可以作为独立的工具使用,对数据对象进行合理划分,也可以作为其他数据挖掘算法的预处理步骤。
2数据挖掘中对聚类分析的典型要求
(1)可扩展性。聚类分析算法对大、小数据集都要行之有效。
(2)处理不同类型属性的能力。聚类分析算法要兼容不同类型数据。
(3)发现任意形状的聚类。聚类分析算法不仅可以发现具有类似大小和密度的圆形或球状聚类,还可以发现具有任意形状类集。
(4)减少用户输入参数量。用户输入参数具有较强主观性,对聚类质量有不可忽视的影响,应尽量减少用户输入参数量,不仅可以改善聚类质量,还可以减轻用户负担。
(5)对噪声数据的处理能力。实际应用要求聚类分析算法对数据集中的噪声数据要有一定的处理能力,使处理对象中质量差的数据尽可能少。
(6)降低对输入数据顺序的敏感成都。衡量聚类算法优劣的一个重要指标是对输入数据顺序敏感程度的高低,要求聚类算法对其敏感程度要尽可能低。
(7)高维问题。聚类分析算法在处理低维数据和高维数据时都表现良好。
(8)基于约束的聚类。聚类分析算法在特定约束条件下具有较好的聚类质量。
(9)可解释性和可用性。聚类分析应与特定的解释和应用目标相联系。
3主要聚类方法分析
实际应用因其数据类型、目的以及要求的不同,对聚类方法的需求也不同,因此根据具体应用选择适宜的聚类方法显得尤为重要。使用多种聚类算法作用于同一数据集,可分析出数据集潜在的有价值的描述性特征,为进一步的探索奠定数据基础。典型的聚类算法包括:划分方法、层次方法、基于密度方法以及基于网格方法。
3.1划分方法
给定一个数据集(包含n个数据对象),划分方法将数据集划分为k个聚类,每个聚类应符合以下条件:(1)每个聚类至少包含一个数据对象;(2)每个数据对象只属于某一个聚类,但在一些模糊划分方法中可以适当放宽对后一个要求的限度。所形成的聚类成为最优化的客观划分,从而使得同一聚类中对象距离尽可能地小,不同聚类间对象距离尽可能地大。聚类相似度的高低通常作为衡量划分方法质量高低的标准,好的划分方法使得同一聚类中数据对象相似度较高,而不同聚类间的相似度低。最常用的划分方法有k-means算法和k-medoids算法。
划分方法一般要求被处理的数据集一次性装入内存,限制了它在大数据集上的应用。划分方法要求用户给定划分个数,导致主观判断因素对聚类质量的影响。划分方法只使用某一固定规则来聚类,使得聚类形状不规则,聚类结果准确率不高。
3.2层次方法
层次方法的输出是给定数据对象组成的一棵聚类树。层次方法分为自上而下和自下而上的方法。自下而上的方法思想:开始于每个数据对象作为一个独立的组,逐步合并这些独立的对象组,直到对象组合并在层次顶端或满足算法终止条件为止。自上而下的方法思想:开始于所有对象作为一个组,循环地将其分裂为更小的组,直到每个对象构成一组或满足算法终止条件为止。BIRCH算法和CURE算法等都是常用的层次方法。
层次方法能得到不同粒度上的多层次聚类结构,但也存在一定程度上的缺陷,比如在进行分裂或合并之后,无法再进行回溯。但这一缺陷同样也具有一定的积极性,因为在进行分裂或合并时无需考虑不同选择所造成的组合爆炸问题。
3.3基于密度方法
基于密度方法能够发现具有任意形状的聚类。基于密度方法通过增长所获得的聚类直到邻近密度超过一定阈值为止,使得聚类内部点的密度较大,而聚类间点的密度较小。基于密度方法可用于除噪,以及发掘任意形状的聚类。DBSCAN、OPTICS和DBCLUES都是常用的基于密度方法。
3.4基于网格方法
基于网格方法通过把对象空间划分为有限数目的单元以形成网格结构。一般来说,划分太粗糙造成不同聚类对象界限不清楚的可能性增大,划分太细致会得到太多小聚类。通常的方法是采用先从小单元开始寻找聚类,再逐渐增大单元的体积,重复这个过程直到聚类质量优良为止。
划分对象空间的网格数很大程度上决定了数据集的处理时间,从而掩盖了数据对象个数的影响,使得基于网格方法的平均速度相对较快。
4k-means算法在电信行业套餐匹配模型方面的应用
随着电信行业竞争的日益加剧,如何使用尽可能低的营销成本取得最大的效益是每个公司追求的目标。使用有限的客服资源留住老客户,尽可能多的发展新客户就要求为他们推荐符合个性需求的套餐,这就需要使用大量数据分析用户真实的消费行为,下述模型使用k-means算法做主体。
4.1k-means算法中心思想
(1)初始聚类中心的选取:从给定的数据集(包含n个数据对象)中任意选取k个对象;
(2)循环③到④直至每个聚类中数据对象不再变化为止;
(3)计算每个数据对象与中心对象的距离,其中中心对象由每个聚类中数据对象的均值给出;
(4)重新计算每个在变化的聚类的均值。
4.2匹配模型
(1)提取用户当月消费记录;
(2)将用户按照入网时间分为三类用户:新入网用户、在网三月用户、在网一年用户,按照属性(用户ID、手机号码、通话时间、短信条数、数据流量)整理三类用户消费记录,存入三个新建表中;
(3)使用通话时间、短信条数、数据流量作为分析属性,使用k-means算法进行聚类分析;
(4)根据得出的结果改进输入参数和k-means算法,使最终聚类质量尽可能高,由此营销部门可根据分析结果制定效益更高的营销方案。
5结论
聚类分析是数据挖掘中的一个很活跃的研究领域,并研究出划分方法、层次方法、基于密度方法以及基于网格方法等多种聚类算法,每种算法都有其自身的特点。划分方法适用于类数固定,聚类形状偏好球形,层次方法能得到不同粒度上的多层次聚类结构,基于密度方法可消除“噪声”,发现任意形状的聚类,基于网格方法处理速度独立于数据对象个数,因此,在实际应用中应根据聚类对象、目的以及要求选择合适的聚类方法,并适当加以改进,达到最佳聚类质量。跟随大数据时代的步伐,聚类技术在数据挖掘领域将取得重大的发展。
参考文献:
[1]朱明.聚类分析.2008.
[2]黄修丹.数据挖掘领域中的聚类分析及应用.2004.
[3]赵法信.王国业数据挖掘中聚类算法研究学报.2005.
[作者简介]许进文(1992.9-),女,汉族,四川彭州人,本科,四川大学计算机学院,研究方向:计算机科学与技术。
关键词:数据挖掘;聚类分析;模型
中图分类号:TP311.13文献标识码:A文章编号:1007-9599 (2013) 06-0000-02
聚类是一个将给定数据集划分为多个类的过程,并且同一个聚类中数据对象的相似度较高,不同聚类间的数据对象的具有较低相似度。通常使用距离来表征对象间的相似度。聚类分析在众多领域都有广泛地研究和应用。
1聚类分析的典型应用
聚类分析就是从给定的数据集中探索数据对象间潜在的有价值的关联,研究人员使用此关联对所得聚类中的数据对象进行统一地分析处理。使用聚类分析作用于数据集,能识别出数据集的稀疏和稠密区域,进一步发现其整体分布模式,以及数据属性之间有价值的相关性。在商业领域,聚类分析可以帮助营销部门划分目标客户群体,根据其不同的特征和消费心理制定适宜的营销策略,以提升营销效益;在生物学领域,聚类分析可用于划分动植物的层次结构,根据基因功能进行分类以对人类基因构造有更深入的了解;在经济领域,聚类分析可用于对不同地区经济发展能力进行总体评价,以及同一地区不同城市间经济发展能力的划分。聚类分析还可以用于挖掘网页信息中潜在的有价值的信息。在数据挖掘应用领域,聚类分析既可以作为独立的工具使用,对数据对象进行合理划分,也可以作为其他数据挖掘算法的预处理步骤。
2数据挖掘中对聚类分析的典型要求
(1)可扩展性。聚类分析算法对大、小数据集都要行之有效。
(2)处理不同类型属性的能力。聚类分析算法要兼容不同类型数据。
(3)发现任意形状的聚类。聚类分析算法不仅可以发现具有类似大小和密度的圆形或球状聚类,还可以发现具有任意形状类集。
(4)减少用户输入参数量。用户输入参数具有较强主观性,对聚类质量有不可忽视的影响,应尽量减少用户输入参数量,不仅可以改善聚类质量,还可以减轻用户负担。
(5)对噪声数据的处理能力。实际应用要求聚类分析算法对数据集中的噪声数据要有一定的处理能力,使处理对象中质量差的数据尽可能少。
(6)降低对输入数据顺序的敏感成都。衡量聚类算法优劣的一个重要指标是对输入数据顺序敏感程度的高低,要求聚类算法对其敏感程度要尽可能低。
(7)高维问题。聚类分析算法在处理低维数据和高维数据时都表现良好。
(8)基于约束的聚类。聚类分析算法在特定约束条件下具有较好的聚类质量。
(9)可解释性和可用性。聚类分析应与特定的解释和应用目标相联系。
3主要聚类方法分析
实际应用因其数据类型、目的以及要求的不同,对聚类方法的需求也不同,因此根据具体应用选择适宜的聚类方法显得尤为重要。使用多种聚类算法作用于同一数据集,可分析出数据集潜在的有价值的描述性特征,为进一步的探索奠定数据基础。典型的聚类算法包括:划分方法、层次方法、基于密度方法以及基于网格方法。
3.1划分方法
给定一个数据集(包含n个数据对象),划分方法将数据集划分为k个聚类,每个聚类应符合以下条件:(1)每个聚类至少包含一个数据对象;(2)每个数据对象只属于某一个聚类,但在一些模糊划分方法中可以适当放宽对后一个要求的限度。所形成的聚类成为最优化的客观划分,从而使得同一聚类中对象距离尽可能地小,不同聚类间对象距离尽可能地大。聚类相似度的高低通常作为衡量划分方法质量高低的标准,好的划分方法使得同一聚类中数据对象相似度较高,而不同聚类间的相似度低。最常用的划分方法有k-means算法和k-medoids算法。
划分方法一般要求被处理的数据集一次性装入内存,限制了它在大数据集上的应用。划分方法要求用户给定划分个数,导致主观判断因素对聚类质量的影响。划分方法只使用某一固定规则来聚类,使得聚类形状不规则,聚类结果准确率不高。
3.2层次方法
层次方法的输出是给定数据对象组成的一棵聚类树。层次方法分为自上而下和自下而上的方法。自下而上的方法思想:开始于每个数据对象作为一个独立的组,逐步合并这些独立的对象组,直到对象组合并在层次顶端或满足算法终止条件为止。自上而下的方法思想:开始于所有对象作为一个组,循环地将其分裂为更小的组,直到每个对象构成一组或满足算法终止条件为止。BIRCH算法和CURE算法等都是常用的层次方法。
层次方法能得到不同粒度上的多层次聚类结构,但也存在一定程度上的缺陷,比如在进行分裂或合并之后,无法再进行回溯。但这一缺陷同样也具有一定的积极性,因为在进行分裂或合并时无需考虑不同选择所造成的组合爆炸问题。
3.3基于密度方法
基于密度方法能够发现具有任意形状的聚类。基于密度方法通过增长所获得的聚类直到邻近密度超过一定阈值为止,使得聚类内部点的密度较大,而聚类间点的密度较小。基于密度方法可用于除噪,以及发掘任意形状的聚类。DBSCAN、OPTICS和DBCLUES都是常用的基于密度方法。
3.4基于网格方法
基于网格方法通过把对象空间划分为有限数目的单元以形成网格结构。一般来说,划分太粗糙造成不同聚类对象界限不清楚的可能性增大,划分太细致会得到太多小聚类。通常的方法是采用先从小单元开始寻找聚类,再逐渐增大单元的体积,重复这个过程直到聚类质量优良为止。
划分对象空间的网格数很大程度上决定了数据集的处理时间,从而掩盖了数据对象个数的影响,使得基于网格方法的平均速度相对较快。
4k-means算法在电信行业套餐匹配模型方面的应用
随着电信行业竞争的日益加剧,如何使用尽可能低的营销成本取得最大的效益是每个公司追求的目标。使用有限的客服资源留住老客户,尽可能多的发展新客户就要求为他们推荐符合个性需求的套餐,这就需要使用大量数据分析用户真实的消费行为,下述模型使用k-means算法做主体。
4.1k-means算法中心思想
(1)初始聚类中心的选取:从给定的数据集(包含n个数据对象)中任意选取k个对象;
(2)循环③到④直至每个聚类中数据对象不再变化为止;
(3)计算每个数据对象与中心对象的距离,其中中心对象由每个聚类中数据对象的均值给出;
(4)重新计算每个在变化的聚类的均值。
4.2匹配模型
(1)提取用户当月消费记录;
(2)将用户按照入网时间分为三类用户:新入网用户、在网三月用户、在网一年用户,按照属性(用户ID、手机号码、通话时间、短信条数、数据流量)整理三类用户消费记录,存入三个新建表中;
(3)使用通话时间、短信条数、数据流量作为分析属性,使用k-means算法进行聚类分析;
(4)根据得出的结果改进输入参数和k-means算法,使最终聚类质量尽可能高,由此营销部门可根据分析结果制定效益更高的营销方案。
5结论
聚类分析是数据挖掘中的一个很活跃的研究领域,并研究出划分方法、层次方法、基于密度方法以及基于网格方法等多种聚类算法,每种算法都有其自身的特点。划分方法适用于类数固定,聚类形状偏好球形,层次方法能得到不同粒度上的多层次聚类结构,基于密度方法可消除“噪声”,发现任意形状的聚类,基于网格方法处理速度独立于数据对象个数,因此,在实际应用中应根据聚类对象、目的以及要求选择合适的聚类方法,并适当加以改进,达到最佳聚类质量。跟随大数据时代的步伐,聚类技术在数据挖掘领域将取得重大的发展。
参考文献:
[1]朱明.聚类分析.2008.
[2]黄修丹.数据挖掘领域中的聚类分析及应用.2004.
[3]赵法信.王国业数据挖掘中聚类算法研究学报.2005.
[作者简介]许进文(1992.9-),女,汉族,四川彭州人,本科,四川大学计算机学院,研究方向:计算机科学与技术。