基于GT4的聚类分析算法研究

来源 :电子世界 | 被引量 : 0次 | 上传用户:danble
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  【摘要】本论文的研究视角是当前比较热门的两个问题:网格技术和数据挖掘技术。将网格计算和数据挖掘技术结合起来,开发基于网格的数据系统,借鉴传统聚类分析算法CLUQ和K_平均值算法,设计基于网格的全局和局部算法的Web Service形式。
  【关键词】GT4;Web Service;聚类分析
  1.引言
  计算机网络技术的普及与应用给人们的生活带来了翻天覆地的变化,同时在网络上产生了大量杂乱无章的数据。而网格技术、Web技术的发展,为人们从分布的网络资源中寻找有价值的信息提供了新的技术支持,同时也产生了许多基于网格的数据挖掘系统。而数据挖掘算法又是决定一个数据挖掘系统性能的主要衡量指标。任何软件系统的设计都离不开算法,数据挖掘技术的执行效率也与数据挖掘算法有关,随着数据库技术与数据挖掘技术的成熟与发展,像分类、聚类、决策树、关联等等数据挖掘算法已相当成熟,可以研究借鉴现有数据挖掘方法、数据挖掘模式、数据挖掘流程,建立一个基于网格的数据挖掘系统。笔者以众多数据挖掘算法中的聚类分析算法为例,介绍基于GT4(Globus Tookit 4.0的简称,GT4的核心开发工具包(Java Web Service Core))的数据挖掘算法的设计过程。
  聚类分析(Clustering Analysis)是一个应用比较广泛的数据挖掘算法,算法的理论研究与实践应用都已经很成熟,把这一成熟的理论应用于基于网格的分布式系统中,会大大提高数据挖掘的效率。本文主要研究如何将聚类分析的CURE(Cluster Using Representation)算法和K-平均方法算法应用于基于GT4数据挖掘系统中。
  2.系统结构设计
  基于GT4数据挖掘系统的数据源是分布式数据源,分布式数据源是指在物理上分布而逻辑上集中的数据源系统。在该系统中,处在这个网格中的每台计算机就是这个网格的一个节点,称之为网格节点。在众多的节点中,要有一个网格节点来控制和管理其他的节点,这个节点就叫做网格中心控制节点,决策支持都是由网格中心控制节点完成的。如果要完成某个数据挖掘任务,则可以由空闲的网格节点先按挖掘需求来完成本节点的挖掘任务,再由网格中心控制节点来汇总每个节点的数据挖掘情况。局部网格节点管理的信息具有局限性,涉及的范围较小,主要完成单个节点数据的管理,对局部的数据挖掘结果进行汇总分析,但是这些局部节点的数据与全局节点的数据又是有一定关联的。根据以上的分析可知,网格平台下的数据挖掘任务由全局数据挖掘与局部数据挖掘共同完成。
  3.算法的Web Service设计
  3.1 全局聚类算法的Web Service设计
  网格环境下的全局控制网格节点与局部网格节点间的关系我们可以理解为上下层的关系,这样就可以借鉴基于层次的聚类分析算法,按照层次的自底向上的聚类方式,把全局控制节点当成是层次聚类的顶层。本课题全局聚类算法借鉴传统的利用代表点聚类算法CURE。
  CURE算法将层次方法与划分方法结合到一起,选用有代表性的、固定数目的空间点来表示一个聚类。算法在开始时,每个点都是一个簇,然后将距离最近的簇结合,一直到簇的个数为要求的K。首先把每个数据点即局部网格节点看成一个聚类,然后再以一个特定的收缩因子向中心收缩它们。
  CURE算法的主要执行步骤如下:
  (1)从数据源样本对象中随机抽取样本集,生成一个样本集合S;
  (2)将样本集合S分割为一组划分,每个划分大小为S/p;
  (3)对每个划分部分进行局部聚类;
  (4)通过随机采样剔除聚类增长太慢的异常数据;
  (5)对局部聚类进行聚类,落在每个新形成的聚类中的代表性点,则根据用户定义的收缩因子收缩或移向聚类中心;
  (6)用相应的标记对聚类中的数据标上聚类号。
  有了数据挖掘算法,就可以完成数据挖掘任务了。全局聚类算法的主要功能是响应用户的数据挖掘请求,将对应的请求发送给局部网格节点,将局部网格节点的挖掘结果整理输出。全局聚类算法Web Service资源的结构包括算法Web Service接口、算法资源属性文档、算法功能实现和算法功能发布四个部分。
  利用传统的聚类算法完成全局的数据的并行挖掘最重要的一步就是将全局聚类算法部署到GT4中,完成全局聚类算法的Web Service设计要经过过以下几步:
  第一步:用WSDL(Web Service描述语言,是Web Service提供的XLM语言)来描述数据挖掘服务接口,该服务接口可以用Java来定义,利用Java-to-WSDL工具把Java定义的接口转为WSDL文件。
  第二步:用Java编写全局聚类算法(CURE)代码;
  第三步:用WSDD配置文件和JNDI(GT4自带文件)部署文件;
  第四步:用Ant工具打包上面的所有文件,生成一个GAR文件;
  第五步:向Web Service容器部署全局数据挖掘服务。
  3.2 局部聚类算法的Web Service设计
  局部聚类算法的主要功能是完成局部网格节点的数据挖掘任务,并把数据挖掘结果上传到全局控制节点。局部网格节点的数据挖掘任务与传统的单机数据挖掘任务类似,本课题局部聚类算法使用传统的聚类算法K-平均方法,以K为参数,把N个对象分为K个簇,簇内具有较高的相似度,而簇间的相似度较低[34]。本论文的数据挖掘任务主要是由局部网格节点实现的,下面就详细的介绍K-平均算法的主要执行过程如下:
  (1)从数据集中任意选择K个对象作为各个簇的初始中心。
  (2)根据现有的簇中心情况,利用距离公式计算其他对象到各个簇中心的距离。(可选的距离公式有:欧几里、行德公式、距离公式、曼哈坦距离公式、明考斯基距离公式)。
  (3)根据所得各个对象的距离值,将对象分配给距离最近的中心所对应的簇。
  (4)重新生成各个簇的中心。
  (5)判断是否收敛。如果收敛,即簇不在发生变化,那么停止划分,否则,重复(2)到(5)。
  K-平均算法是一个经典的聚类算法,将K-平均算法部署到GT4中,完成局部聚类算法的Web Service设计,部署方法与全局算法相似。
  4.结论
  基于GT4的数据挖掘系统中的数据挖掘服务资源有网格的中心控制节点(即全局节点)进行统一的管理,在局部网格节点挖掘过程中,根据其处理能力分配最佳的数据集给局部节点,从而使整个系统的计算负载相对均衡。其数据挖掘系统的规模可随着服务的多少动态伸缩。当系统要增加新的局部挖掘节点时,只需部署局部Web Service资源即可。将网格应用到分布式数据挖掘系统中,建立一个基于网格的数据挖掘系统,必将使其在各个领域都得到广泛的应用。
  参考文献
  [1]薛胜军,马廷淮,刘文杰.Globus Tookit 4:Java网格服务编程[M].北京:清华大学出版社,2009.
  [2]刘敏娟.基于网格的聚类算法分析研究[D].郑州:郑州大学,2007.
  [3]陶树平,钱挺.一种网格平台数据挖掘服务模式及其算法[J].计算机工程,2005,31(5):109-111.
其他文献
【摘要】数控技术作为现代制造技术的基础,其作用越来越广泛。随着数控机床广泛应用于生产加工领域,数控技术人才的培养引起各职业院校的重视。本文结合黄石职业技术学院构建计算机数控仿真实训室的实践,介绍了构建的主要原则、方案及特点,并提出了使用计算机数控实训室的几点看法。  【关键词】计算机数控仿真实训室;建设;方案;特点及应用  随着经济的高速发展和现代制造业的巨大进步,现代数控机床广泛应用于各生产加工
期刊
【摘要】研究目的:调查大学生使用手机上网情况;研究方法:本研究采用随机调查的方法和访谈法;研究结果:根据本研究的随机抽取的被试,100%的大学生都会使用手机上网,其中65.7%的大学生经常使用手机上网,达到依赖或成瘾状态;结论:大学生手机上网以成为普遍现象,要对其行为正确引导,提供多种途径让大学生的在校生活丰富化、多样化、实效化。  【关键词】大学生;手机上网;调查  随着互联网的迅速发展,网络给
期刊
【摘要】在变电站中的设备经常出现绝缘故障,会产生局部放电,利用检测设备可以测到放电的高频信号,但是信号中往往含有大量的噪声,如何有效的去除噪声是一项重要的工作,本文根据经典的小波分析法对高频信号进行了相应的去噪分析,得到了较好的结果。  【关键词】小波分析;高频信号;去噪  1.引言  局放信号一般情况下携带了很多杂波,所以在处理之前必须进行相应的预处理阶段。已经知道小波参量的数值可以反映相应能量
期刊
【摘要】本文基于火花塞离子电流检测技术设计了发动机点火控制电路和发动机离子电流检测电路。点火控制电路主要通过编程模拟发动机的点火过程,离子电流检测电路主要完成对火花塞两极之间离子电流信号进行采集放大的工作,以便处理和分析。该检测仪的最大特点是在不需要特殊的传感器的情况下进行能够方便的进行检测。  【关键词】发动机;离子电流;检测;设计实现  1.引言  在最近的实验研究中,一种新的发动机工作情况检
期刊
【摘要】随着生活水平的不断提高,人们对于健康的需求也是与日俱增,传统的以医疗为主的健康模式也在逐渐的变化,人们更希望的是通过日常的保健等行为使身体长时间的保持健康,减少疾病的痛苦。人本电子健康系统意在为人们搭建一个平台,使其可以通过测量记录日常生活习惯、身体状况来管理自身的健康,并且通过专家系统的提示,调整不良生活习惯,保证身体处在良好的健康状态。在互联网进入到大数据时代的现在,单一的关系型数据库
期刊
【摘要】本文从有源标签的设计理念出发,针对煤矿井下一般小范围空间RFID定位的需求,根据低功耗、高效率的原则进行RFID标签的设计。系统在硬件上采用了MSP430F2012单片机和nRF24L01射频芯片的低功耗组合;软件上则结合了RFID定位的特点,介绍了有别于一般以识别为主要目的的标签的设计方法,并分析了其软件设计流程以及简单的防冲突能力。通过良好匹配的天线,本设计有效读取距离可达几十米,足以
期刊
【摘要】国家开放大学的建设,对于促进终身教育体系构建和全民学习的学习型社会的形成,对充分利用现代信息技术探索科技与教育的深度融合,以及促进教育信息化、引领教育现代化、促进教育改革创新、提高办学质量都具有重要的现实意义。但怎样实现信息技术与教育深度融合呢?针对这问题,本文以云南开放大学建设为例就深度融合的指导思想、实现的形式、实现的载体及实现的保障等几个方面进行阐述。  【关键词】信息技术;教育;开
期刊
【摘要】采用反应离子体刻蚀机结合CHF3+SF6+O2混合气体[1,2]刻蚀二氧化硅的工艺研究,并且采用正交试验方法[3]调整刻蚀参数,得出影响刻蚀倾角的主要因素是CHF3和SF6。适当增加CHF3流量有助于形成陡直的刻蚀倾角;适当增加SF6流量并减小CHF3流量有助于形成平缓的刻蚀倾角。通过对实验参数进行整体优化处理,最终实现了垂直、平缓的刻蚀倾角。为采用二氧化硅作为刻蚀掩膜以及终端结构提供了帮
期刊
【摘要】文中对配电网设备状态评估框架进行构建,分析配电网状态评估的特征,并对配电网中重要设备的状态信息进行描述,提出设备状态量评估标准和配网设备状态评估方法,为配电网状态维修决策提供参考依据。  【关键词】状态评估;配电网;维修决策;在线监测  1.引言  传统的定期检修不但影响供电的连续性,而且容易因突发故障检修不及时造成停电事故。状态检修便是在这样的背景下提出。状态检修即根据设备的状态安排检修
期刊
【摘要】随着我国电力市场的不断发展,我国电力市场需求多元化的特性逐步凸显。如何优化营销策略,满足不同客户的用电需求,提高核心竞争力,已成为电力企业的一项迫切任务。本文以数据挖掘为切入点,将电力客户细分与价值评价有机结合,构建了基于客户行为-价值细分模型。并以某某市部分电力客户为研究对象,进行实证分析。结果表明模型效果较好,能够很好的将电力客户细分为具有不同特征的客户群、对不同客户群价值进行量化评估
期刊