数据挖掘中的聚类算法性能优劣分析

来源 :科学与财富 | 被引量 : 0次 | 上传用户:xiaobi68029616802961
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  摘 要:聚类算法是数据挖掘中重要的方法之一,随着数据挖掘技术的发展,先后出现过许多聚类算法,对数据挖掘带来了不同程度的影响。聚类算法自身具有多方面的优缺点,为使用户能根据自身的实际情况找到最为合适的蕨类算法,笔者结合不同的聚类原理对聚类算法进行详细的分类,并对其各自的算法类型做出详细的分析和总结,并对聚类算法的性能进行比较,为用户提供更加清晰明确的选择参考。
  关键词:数据挖掘;聚类算法;性能分析
  数据挖掘是按照一定的逻辑习惯和规则算法,从大量的数据信息中选取出符合要求的或与用户所需数据相关的数据;聚类算法是数据挖掘过程中使用较多的算法之一,聚类算法的应用原理是根据相似的数据,将与之相关的或相同的数据信息作出归类,并且是在没有任何先验知识的前提下进行的,又由于聚类算法的对象之间虽然相似,但差别较大,这就使得聚类算法也有另外一个名称,叫做无指导分类。社会在发展,科学技术在进步,数据挖掘技术也有着较为明显的发展,行业领域内的专家学者进行了大量的创新研究,目前存在的聚类算法种类有很多,各种算法自身具有着各不相容的优缺点,从用户的角度来说,在众多的聚类算法中快速选出一个适合自己使用的算法已经成为了一个难题。
  1.聚类算法分类
  对于聚类算法的而研究由来已久,并且在长期的发展过程中,如今存在的聚类算法已经接近了一百种,在这么多的种类中,按照算法的原理思想,可以分为五大类。
  1.1划分聚类
  划分聚类是较为常用的聚类算法,这一方法的计算原理为:当一个数据集D拥有N条记录时,在已知聚类数目K和目标函数F的前提下,结合实际情况以具体的方式选择相应数量的初始聚点,然后将数据集中的数据按照一定的规则划分成为k个组,并且在每一个聚点组内选择出新的初始聚点,将 数据集在此划分小组,以此类推,得出相对优质的函数效果。划分聚类的算法有: CLARA 、CLARANS 、PCM 、Focused.
  1.2层次聚类
  层次聚类的计算原理是:根据具体的条件和要求,对数据组进行逐层重组,一直到满足相应的条件为止。层次聚类包含有两种类型,合并型和分解型,兩者的主要区别在于合并型是自下而上的计算方法,分解型是自上而下的计算方式;合并型将数据集中的对象都看作是一个独立的聚类,然后对其进行逐层的合并;分解型则是以整个数据集为单位,将其分解成为多个子类。层次聚类的算法有:BUBBLE 、BIRCH、 ROCK、 CURE、 BUBBLE-FM.
  1.3基于密度的聚类
  基于密度的聚类的计算原理是:在数据集中确定半径和密度阈值,然后根据已有的数据和条件,要求其中的任意对象都是在半径邻域内的,同时其数量要超出一开始确定的密度阈值;在初始密度的基础上,聚类对象会发生随机的形变呈现出不同的簇。基于密度的聚类算法有:GDBSCAN、 OPTICS、 DBLASD 等多种算法。
  1.4基于网格的聚类
  基于网格的聚类计算原理是,通过一种具有较多分辨率网格的数据结构,将数据空间量化成为若干个数据单元,然后完成对聚类的分析。基于网格的聚类在计算的时候,具有的优点为:计算速度快,并且处理的时间只依赖于量化空间中每一维上的单元数目。基于网格的聚类算法主要有WaveCluster 、CLQUE、 STING等。
  1.5基于模型的聚类
  基于模型的聚类的计算原理是:根据聚类的类型特点为其设定一个固定的模型,以此模型为基准,在数据集中进行数据的搜集与整理,将与模型要求相符的数据对象筛选出来即可。通常情况下设定的模型时某一个数据点在空间中的密度分布函数,由具体相应的概率分布决定。基于模型的聚类有两种较为常见的算法:一是神经网络,这一算法下的自组织神经网络方法是应用较为广泛的,其计算原理为:在人工自组织的映射网络中,输入一些来源于外界的样本,输入样本会产生不同位置的兴奋细胞,经过人工自组织后会产生一些细胞群,不同的反应特征则代表了不同的输入样本。二是统计方法,统计法是在k-means的基础上演变而来的,包含有COBWeb、 autoclass等,其中前者是一种存在较为普遍的概念型聚类算法,将层次聚类以分类树的形式展现出来,相对来说具有一定的局限性;后者的计算方法是以概率混合模型为基础的,对混合型数据的处理具有更大的优势,但其中的对象属性需要时相互独立的。
  2.适合特殊要求的聚类算法分析
  在进行数据挖掘的过程中,有时候会对聚类分析提出一些特殊要求,当然这些特殊要求也是围绕聚类的实际情况而提出的;常见的特殊要求有:计算一些规模较大的数据、复杂性强、难度高的不同类型数据、高维数据等,针对类似这样的特殊要求,也有相应的聚类算法,笔者对特殊性较强的聚类算法进行了分析和总结:
  2.1处理大规模数据的聚类算法
  聚类算法不仅能进行常规的数据处理,对规模大、复杂性高的而数据同样能 进行处理,并且得出较为优质的效果。在聚类算法中,能较好的完成大规模数据处理的算法有:Wave Cluster、 BRCH 、CURE等。
  Wave Cluster在进行数据处理的过程中,对数据输入的顺序并不敏感,但对数据进行一次扫描就可以发现其中的聚类形状,当聚类中出现异常数据时,Wave Cluster算法可以轻松应对,处理速度快且能力也较强。BRCH属于层次聚类,其计算的综合性质较强,当BRCH作为其他聚类算法的前期预处理算法,对大规模数据的处理效果有更大的帮助;但BRCH算法一存在一定的缺点,即对非球类的聚类不敏感,不能及时、准确地发现这一类数据,同时对异常数据和数据输入的顺序非常敏感。
  2.2处理不同类型数据的聚类算法
  数据有很多种类,针对常规的数值类型数据的处理,有相应的计算方法;对于非常规的特殊类型数据,我们同样有相对应的计算方法:k-protoypes 、rock和CACTUS是较为常见的几种聚类算法。
  k-protoypes属于划分聚类,是在k-means和k-modes算法的基础上演变而来的,对普通数据的处理常采用欧氏距离方法,对数据进行简单的匹配,比较匹配后的结果,计算聚类对象之间的相似度;当然这一算法也有缺点,在计算时只能识别球形聚类,并且对异常数据非常敏感,使得计算的精准度不够高,对高维数据的处理能力较低。CACTUS算法可以轻松处理混合型数据,当对数据扫描两次之后,可以采用概括、聚类和验证得出聚类;CACTUS算法在 计算过程中对数据的输入顺序并不敏感,并且能够发现任何形状的聚类。
  笔者在读多种聚类算法进行充分的分析和研究之后,对算法的性能进行额多方面的综合比较,如表1所示,帮助用户更好的选择适合自己使用的聚类算法。
  3.结语
  随着可续而技术的发展,数据挖掘方面也有了较大的进步,聚类算法是数据挖掘中非常重要的算法,并且已广泛应用于各行各业。在现实生活中,新的应用领域不断出现,原有的聚类算法并不能完全满足现在的多元化行业需求,这就要求我们在接下来的研究工作中,制定出更为统一、有效、可行的聚类算法,方便更多的用户使用聚类算法进行数据挖掘。
  参考文献
  [1] 杨启仁.数据挖掘中聚类算法的研究[J].牡丹江大学学报,2010(06):107-109.
  [2] 张芳.数据挖掘中的聚类分析技术研究[D].国防科学技术大学,2011.
  [3] 刘强.案例数据挖掘中的聚类算法研究[D].合肥工业大学,2010.
  作者简介:1.黄吉,男,1981.6.20,汉,籍贯:湖北武汉,学历:本科,职称:高级工程师,主演研究方向:城市大数据处理;2.钮焱。
其他文献
摘 要:本文分析了园林绿化工程经济的现状,对其园林绿化项目前期的经济管理、开展过程中的经济管理以及竣工验收阶段的经济管理这几方面来进行阐述,如何在保证园林绿化工程质量和效果的前提下,尽量节约资金、节省投资。  关键词:园林绿化;工程项目;经济管理  1、经济管理的现状  现代园林绿化工程项目中有时会出现两极分化的现象,一方面有些工程大手笔大气度建设,不计工程造价经济;另一方面一些项目工程造价计较的
期刊
摘 要:本文主要通过市场调查评分对热带咖啡屋在上海的可行性战略进行研究,用营销、战略、可持续性及金融等方面调查结果进行统计和分析,根据市场调查和营销管理的相关理论,针对热带咖啡屋的可行性进行分析,规避其存在的重大风险,制定出目标市场营销策略。  关键词:市场调查;营销管理;财务分析;可行性  一、执行概要:  随着人们对高质量极品咖啡和周到服务需求的提高,热带咖啡屋将在中国最大的城市之一——上海开
期刊
摘 要:随着我国经济的快速发展,我国高速公路事业也得到了快速的发展。相应地,公路养护工作日益重要。在进行公路养护时,应该在科学发展观的指导下,对于公路养护的技术不断进行创新,并对公路养护的理念进行及时更新,以期在进行养护工作的时候,养护的方式得到有效改善,且养护工作质量得以显著提升。本文主要从现今高速公路养护的实际出发,对于养护中存在的问题进行了深入的分析。另外,在此基础上,对于我国高速公路养护设
期刊
摘 要:随着知识经济的到来和我国教育改革浪潮的掀起,我国初中语文教学正面临新一轮教育改革。现存的课程观念和教学模式需要“脱胎换骨”,并重新思考现代教育的新方向。要保持实事求是的科学态度,理论与实际相结合,唯有如此,我们的教学才能真正迎来生机和活力。  关键词:初中语文;教学;如何去创新  引言  从初中语文课堂教学的现状来讲,初中语文教学的创新,不是从根本上摆脱旧的、传统教学观念的束缚,完全地抛弃
期刊
摘 要:地理信息系统(GIS)是一种综合性很强的高新技术,它把几何学、地理学以及计算机科学等方面融为了一个整体以方便开展工具体的工作。随着电网使用范围的逐渐扩大,GIS技术在配网自动化建设中的应用越来越受到人们的关注。本文针对配网自动化建设对GIS技术的应用进行总结归纳,进一步探讨其应用价值。  关键词:GIS技术;配网自动化;应用  随着我国社会经济的发展,科学技术也在逐渐完善,在一定程度上促进
期刊
摘 要:氨氮检测是环境水质分析中的一个常规检测项目,可以采用的检测方法有多种,当前比较常用的是纳氏试剂分光光度法,该方法操作简单、灵敏度高,应用广泛,被认为是测定水中氨氮含量的首选国际经典方法。在水中氨氮的测定过程中,纳氏试剂分光光度法的操作中各种因素都会在一定程度上影响氨氮的测定结果,需要注意并重视实验过程中的相关注意事项,以保证氨氮含量测定结果的准确性。  关键词:氨氮;纳氏试剂分光光度法  
期刊