基于遗传编程的数据挖掘分类和聚类算法的研究与实践

来源 :华东师范大学 | 被引量 : 0次 | 上传用户:huweiguangkaka
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着人们生产和搜集数据的能力大幅度提高,迫切需要找到从现有数据库系统/广域网的大量数据中提取知识的手段。然而,目前人们分析数据、获取知识的能力还不能与现有的组织、存储和操作数据的技术相媲美。为了解决这个问题,产生了基于数据库与数据仓库系统的数据挖掘方法与技术。数据挖掘可以看作是信息技术自然演化的结果,从数据收集和数据库的创建,到数据管理,再到高级数据分析。分类和聚类是数据挖掘的两个重要过程,针对这两个过程,人们已经提出了许多算法,如:贝叶斯分类、基于规则的分类、关联分类、k均值聚类、层次聚类等。这些传统的方法中普遍对用户的相关领域知识有一定的要求,用户对参数的输入很大程度上影响了算法的结果。为了改进这个问题,使数据挖掘任务能够自动的进行,人们提出了基于进化算法的数据挖掘算法。遗传编程是进化算法的一个分支,其主要思想来源于生物的进化。NilsAall Baricelli在1954年首先提出了遗传编程。1980年,Stephen F.Smith发表了关于遗传编程的实验结果。Nichael L.Cramer和Jurgen Schmidhuber分别于1985年和1987年发表论文提出了现代进化编程。John R.Koza对遗传编程作出了重要的拓展,并在1992年发表论文指出,遗传编程应该被视为遗传算法的一个分支而不是特例,John R.Koza被认为是遗传编程的先驱。文中介绍了数据挖掘中分类和聚类的相关算法,并针对这些算法作了系统的分析,指出了这些算法的优势和不足。同时,文中对遗传编程进行了讨论,详细地阐述了遗传编程的相关理论、方法以及技术。在此基础上提出了基于遗传编程的分类与聚类算法。在分类算法中,一个簇用一个逻辑公式表示,这个逻辑公式则由谓词构成。每一个遗传编程个体则将该逻辑公式编码为树形结构。本文提出的聚类算法基于层次聚类的思想,首先将数据集划分为若干个簇,然后对簇进行合并。但是层次聚类的一个缺点是一旦某一部做出决定,那么以后就不能更改。这导致了聚类结果有很大的偶然性。同时,一开始划分的若干个簇并不一定合适。因此,引入遗传变程。将一种聚类方案表示为一个个体,对若干个个体进行评估后,进行一系列遗传操作,产生下一代个体。经过数代,最终得出聚类方案。同时,文中对数据进行了实验,将实验结果与传统的聚类算法相比较,验证了基于遗传编程的数据分类和聚类算法在结果上相对于传统算法有较大的提升。最后,文中提出了该思想存在的不足和进一步改进的方向。
其他文献
条码技术是集编码、印刷、识别、数据采集和处理于一体的综合技术。一维条码在生产和生活的各个方面得到了广泛应用,但是一维条码本身的缺点--信息量少、依赖数据库等缺点也日
USB(Universal Serial Bus)是目前应用非常广泛的一种总线形式,其即插即用、热插拔、接口体积小巧等优点给计算机外设连接技术带来重大变革。μC/OS-Ⅱ是一个源码公开、完整
随着分子生物科学和信息科学的快速发展,生物信息技术作为新型学科成为前沿研究领域,通过基因分类可以将海量的基因表达数据划分成数量相对较少且具有生物意义的组,并在此基
储层建模三维可视化是指把科学计算可视化和储层建模结合起来,根据己知的测井数据等数据,通过使用地质统计学算法,来建立储层模型,并使用三维可视化方法,将储层数据模型用直观三维
图书管理系统的发展经历过单机、终端/主机和局域网下客户机/服务器(C/S)阶段。近年,随着Intemet技术的发展,浏览器/服务器(B/S)作为C/S结构的一种改进,正日益取代C/S结构,成为We
随着计算机的普及和互联网的迅猛发展,Web上形成了大量的电子化文档,其中蕴涵着诸多可用的信息。因此,在信息抽取技术(Information Extraction:IE)发展基础上的Web信息抽取成为近
随着计算机时代的飞速发展,人们越来越追求工业的智能化,于是人机结合和交互愈发的得到重用。作为仅次于语言的交流方式,人们通过手势能够完成对机器的指令引导工作,基于人体手势
学位
随着“雾霾”二字近几年在国内乃至国际热门话题中频繁出现,人们意识到一味追求工业飞速发展虽然暂时带来了社会的快速进步,但也要为此付出巨大的代价,而城市空气污染则是其中最
入侵检测作为一种主动防御技术,弥补了传统安全技术的不足。本文在对已有的入侵检测模型研究的基础上,提出了一个多代理的入侵检测模型,该模型中各代理之间的通信方法可以适