论文部分内容阅读
[摘 要]数据仓库和数据挖掘技术是信息技术领域的热门话题,两者的结合已成为人类处理和分析海量信息的有力武器。基于数据仓库基础上的数据挖掘技术是一种对数据仓库中的数据进行深层次加工和处理的过程,也是一种实现数据仓库决策价值的方法和工具。
[关键词]数据仓库;数据挖掘
中图分类号:G26 文献标识码:A 文章编号:1009-914X(2016)21-0162-02
1、 引言
计算机应用技术已经深入到各行各业,用户除了用计算机处理日常事务外,更需要从大量数据中归纳出业务的规律性和发展趋势,以支持决策的制定。数据仓库就是在这样一种背景下产生的,如何将这些海量的数据从数据仓库中提取出来,并转为有用的信息,仍然是一个亟待解决的问题。为此,人们进行了多方面的研究尝试,数据挖掘技术就是其中的一种新技术。从目前的形势看,数据仓库和数据挖掘技术紧跟互联网的发展,成为企业在信息社会中获胜的又一关键。
2、 数据仓库
2.1 数据仓库概念和基本特征
数据仓库,是为企业制定决策过程,提供所有类型数据支持的战略集合。斯坦福大学数据仓库研究小组是这样定于数据仓库的:“数据仓库是继承信息的存储中心,这些信息可用于查询或分析”;公认的数据库之父比尔·恩门将其定义为:“数据仓库是面向主题的、集成的、相对稳定的、反映时间变化的数据集合,用以支持管理决策。”
基本特征:
(1)面向主题:操作型数据库的数据组织面向事务处理任务,而数据仓库中的数据是按照一定的主题域进行组织。主题是指用户使用数据库进行决策时所关心的重点方面,一个在较高层次将数据归类的标准,每一个主题对应一个宏观分析领域。基于主题的数据被划分为各自独立的领域,每个领域有自己互补交叉的逻辑内涵。
(2)集成:是指原始数据进入数据库前,将来自于分散的操作型数据,从原来的数据中抽取出来,必须先经过加工与集成,统一与综合之后才能进入数据仓库,并将原始数据的结构从面向应用转换到面向主题,消除原数据中的不一致,以保证数据仓库内的信息是关于整个企业的一致的全局信息。
(3)稳定:某个数据进入数据仓库后,一般情况下将被长期保留,是不可更新的,主要是进行数据查询,修改、删除操作很少,通常只需要定期进行加载、刷新。时值数据仓库在某一时刻供用户分析处理是不能进行数据更新操作的,而不是说数据仓库在其整个生命中数据集和总是不变的。
(4)随时间变化:数据仓库是随时间而变化的,传统的数据库系统比较适合处理格式化的数据,能够较好的满足商业商务处理的需求。稳定的数据以只读格式保存,是数据仓库内的历史数据,数据时限长,且数据包含时间项属性。
2.2 数据仓库的体系结构
数据仓库的所有部分结合在一起的结构就是体系结构。它即是一种富有哲理性的方法,也是一种技术,数据和信息从不同的数据源提取出来,然后把这些数据转换成公共的数据模型并且和仓库中已有的数据集成在一起。当用户向仓库进行查询时,需要的信息已经准备好了,数据冲突、表达不一致等问题已经得到了解决,这使得决策查询更容易、更有效。
数据仓库应包括三个组成部分:
(1)数据获取:这个部分负责从外部数据源获取数据。数据被区分出来,进行拷贝或重新定义格式等处理后,准备载入数据仓库。
(2)数据存储:这个部分负责数据仓库的内部维护和管理,提供的服务包括数据存储的组织、数据的维护、数据的分发、数据仓库的例行维护等。
(3)信息传递:信息访问部分数据仓库的前端,面向不同种类型的最终用户,这里主要有桌面系统的各种工具组成。
3.数据挖掘
3.1 数据挖掘的概念
数据挖掘是一个从大量数据中挖掘或抽取出未知的、有价值的模式或规律等知识的复杂过程,它给出了数据的特性或数据之间的关系,是对数据包含的信息更抽象地描述。可以利用图形、文字、表达式等方式;所谓处理过程是指数据挖掘是一个多步骤对大量数据进行分析的过程,包括数据预处理、模式提取、知识评估及过程优化。知识提取往往需要经过多次的反复,通过对相关数据的再处理及知识学习算法的优化,不断提高学习效率。所谓可信、新颖和具有潜在作用是指通过数据挖掘,从当前数据仓库所发现的模式必须有一定的正确程度和新颖性,否则数据挖掘就毫无根据作用。虽然只是发现可以对已有的知识进行验证,但发现新的知识往往更重要,或对已有的知识进行拓展得到更全面、更具有实际意义的知识。发现的知识必须经过实践的检验,并在实际应用中发现问题,对学习数据和策略进行修改,重新进行学习从而得到更精确的知识。
3.2数据挖掘系统的组成
数据挖掘系统中主要的输入是源于数据仓库的数据、分析员的指导,以及存储数据挖掘系统知识库中的知识和经验。从数据仓库中选择的数据在知识发现引擎里处理,引擎中提供了大量的抽取算法,以便生成辅助的模式和关系。有些发现还要加入知识库中,以便后续发现的抽取和进行评价。下面分别介绍各模块的功能:
数据挖掘系统管理器,知识发现系统管理器控制并管理知识发现过程。分析员的输入和知识库中的信息,用于驅动以下三个过程:数据选择过程、抽取算法的选择和使用过程、发现的评价过程。系统管理器帮助生成发现结果的描述,并将恰当发现结果存于知识库已被下一次发现。
知识库和分析员的输入,知识库源于多方面的必需的信息。分析员可以将元数据输入数据仓库中来描述数据仓库的数据结构。此外,分析员还要在知识库中输入其他相关的数据知识,如:数据的关键字段、需求规则、数据层次等,以便按一种有效的方式指导信息发现,减少可能丢失有用的模式和关系;分析员还要做出权衡,存储新的发现结果,提高知识发现的能力。
数据仓库的数据库接口(DB接口),数据挖掘系统利用数据库的查询机制从数据仓库中抽取数据,使用SQL查询语言。知识库总的数据仓库元数据指导数据库接口正确组织数据结构,并正确组织数据结构在数据仓库中存储的方式。 数据选择,确定从数据仓库中需要抽取的数据及数据结构。知识库指导数据选择构建选择要抽取的数据及抽取的方式。如果只需要示例数据,数据选择构建必须有能力选择恰当的随机示例。此外,它还要选择算法所需的数据类型,并将数据类型输入算法。
知识发现引擎,知识发现引擎将知识库中的抽取算法提供给数据选择构建抽取的数据,其目的是要抽取数据元素间的模式和关系。数据挖掘中主要使用的算法有:数据挖掘的信息论方法、数据挖掘的集合论方法、数据挖掘的仿生物方法、公式发现、统计分析方法等。
发现评价,分析员要寻找关键性的数据模式,以用户能了解的方式呈现给用户。用于分析关键性模式的技术包括统计的重点、覆盖级别的置信度因子以及可视化分析等。
发现描述,此构建提供了两种必需的功能,一种是以发现评价辅助分析员,在知识库中保存关键性的发现结果以备将来引用和使用;一种是保持发现与用户的通信。
3.3数据挖掘的技术算法
(1)数据挖掘的信息论方法
该方法是利用信息论原理,计算数据库中各字段的信息量,建立决策书或者决策规则树,比较重要的有ID3方法和IBLE方法。
ID3方法:它是利用信息论中互信息量寻找数据库中具有最大信息量的字段,建立决策书的一个结点,再根据字段的不同取值建立树的分支,叶结点为正例或反例。
IBLE方法:它是利用信息论中信道容量,寻找数据库中信息量从大到小的多个字段的取值建立决策规则树的一个结点,字段的取值是由译码函数按正例标准而决定的值,结点中包含两个阀值(Wn, Wp),结点中的多个字段名、权值、正例标准值、阀值共同构成了一个决策规则。
(2)数据挖掘的集合论方法
粗糙集方法:在数据库中将元素看成行对象,列元素看成属性(分为条件属性和结论属性)。等价关系定义为不同对象在某个属性上相同,这些等价关系的对象组成的集合成为该等价关系的等价类。条件属性上的等价类E与结论属性上的等级类之间有三种关系:下近似,Y包含E;上近似,Y和E的交非空;无关,Y和E的交为空。对下近似建立确立性规则,对上近似建立不确定规则(含可信度),对无关情况不存在规则。
概念树方法:数据库中记录的属性子断案归类方式进行抽象,建立起来的层次结构成为概念树。例:“球类体育运动”的下层是“篮球、排球、网球”等具体的球类运动,其上层是“体育运动”。利用概念树对多个属性字段分层,将得到高度概括的知识基表,再将其转换成规则。
覆盖正例、排斥反例:利用覆盖所有整理、排斥所有范例的思想来寻找规则。
(3)数据挖掘的仿生物方法
神经网络方法:神经网络通过学习待分析数据中的模式来构造模型,一般可对隐类型进行分类,用于非线性的、复杂的数据。神经网络有“神经元”的互连或按层组织的节点构成。通常,神经模型有三个层次组成:输入、中间层和输出。每一神经元求得输入值,再计算总输入值,由过滤机制比较总输入,然后确定其自己的输出值。可通过连接一组神经元来模型化复杂行为。当修改连接层的“连接度”或参数时,神经网络就进行了“学习”和“训练”。这里,神经网络用恰当的数据仓库实力来训练。目前,神经网络以MP和Hebb学习规则为基础,建立了三大类多种神经网络模型。
前馈式网络:它含感知机、反向传播模型、函数型网络、模糊神经网络等,可用于预测、模式识别等方面。
反馈式网络:它以Hopfield的离散模型和连续模型为代表,分别用于联想记忆和优化计算。
自组织网络:它以ART模型、Konolen模型为代表,用于聚类。
遗传算法:是模拟生物进化过程的算法。它由三个基本算子组成:
繁殖(选择):从一个就种群选择出生命力强的个体产生新种群的过程。
交叉(重组):选择两个不同个体的部分进行交换,形成新个体。
变异(突变):对某些个体的某些基因进行变异(1变0,0变1)。
(4)公式发现
在工程和科学数据库中对若干数据项进行一定的数学运算,求得相应的数学公式。
(5)统计分析方法
相关分析和回归分析:相关分析是用相关系数来度量变量间的相关程度。回归分析是用数学方程表示变量间的数量关系,方法有线性回归和非线性回归。
差异分析:从样本统计量的值得出的差异来确定总体参数之间是否存在差异,典型方法有差分析,它是通过分析试验数据中不同来源的变异对总体变异的贡献的大小,从而确定试验中的可控因素是否对实验结果有重要影响。
因子分析:它是用较少的综合变量来表达多个观察变量。根据相关性大小把变量分组,使得分组内的变量之间相关较高,不同组变量间的相关较低。
聚类分析:直接比较样本中某个事物之间的性质,将性质相近的归为一类,而将性质差别比较大的分在不同的类。对变量聚类计算变量间的相关系数。对样本聚类计算样本间的距离。
判别分析:建立一个或多个判别函数,并确定一个判别标准,然后对未知属性的对象,根据测定的观察值,将其划归已知类別中的一类。
(6)其它数据挖掘技术
模糊论方法:利用模糊集合理论对实际问题进行模糊评判、模糊决策、模糊模式识别和模糊聚类分析。由于模糊性是可观的存在,而且系统的复杂性愈高,对他精确化能力便愈低,这就意味着模糊性愈强。
可视化技术:可视化数据分析技术拓宽了传统的图表功能,是用户对数据的剖析更清楚。
地理信息系统:地理可视化系统中的不同物理位置直至地理表示都与仓库中的数据相关。根据地理环境来看待这些数据,并比较相同产品在不同地域的差异,或相同地域不同产品的差异,可分析数据仓库中数据的关系。
分形系统:分形分析试图利用混沌科学来指明模式,然后用分形将多位数据库提供的分析信息存储与数据仓库。其目的是要为大型数据仓库提供OLAP的响应。 4.基于数据仓库的数据挖掘技术
作为数据仓库系统三要素之一的信息访问部分,是最终用户从数据仓库中提取信息、分析数据、实施决策的必经途径。在数据仓库中进行数据挖掘,数据仓库与目前数据挖掘的主要对象——数据库间的本质区别给数据挖掘带来了许多新的特点。
(1)规模:数据仓库中继承和存储来自若干分布、异质的信息源的数据。这些信息源本身就可能是一个规模庞大的数据库,可见数据仓库比一般数据库系统具有更大的数据规模。如何从如此巨量的数据中有效地提取有用的信息,需要各方面技术的进步。从当前发展来看,支持并行处理的分布式DBMS、具有大规模并行处理(MPP)能力的计算机、超大规模的存储机构等技术的发展和协同将使数据仓库走向实用。但要进行数据挖掘我们还必须发展更有效、更快速的算法。。
(2)历史数据:传统的数据库系统为了获得最大的执行效率,往往存储尽可能少的数据量。因为拥有的数据越多,数据组织、重构、浏览、索引和监控的难度就越大,传统数据系统在“时间”轴上的长度很有限。比较而言,数据仓库的根本特征之一就是进行长时间的历史数据存储,这使得我们可以进行数据长期趋势的分析,数据仓库为决策者的长期决策行为提供了独一无二的支持。
(3)数据集成和综合性:从一个企业的角度看,数据仓库集成了企业内各部门的全面地、综合的数据。数据挖掘要面对的是关系更复杂的企业全局模式的知识发现。从这一点上讲,基于数据仓库的数据挖掘能更好的满足高层战略决策的要求。而且,数据仓库机制大大降低了数据挖掘的障碍,一般进行数据挖掘要花大量的力量在数据准备阶段,而在数据仓库中数据已经被充分收集起来,进行了整理、合并,并且有些还进行了初步的分析处理。这样,注意力更集中与数据挖掘的核心处理阶段。另外,数据仓库中对数据不同粒度的集成和综合,更有效的支持了多层次和多種知识的挖掘。
(4)查询支持:数据仓库面向决策支持。数据仓库的体系结构努力保证查询(Query)和分析的实时性。而一般的联机事务处理(OLTP)系统主要要求更新(Update)的实时性,对查询的性能要求相对较弱。一般的数据仓库设计成只读方式,最终用户不能直接更新数据仓库。数据更新由专门的一套机制保证,通常由系统自动更新和管理员控制来协同完成。数据仓库对查询的强大支持使数据挖掘效率更高,挖掘过程可以做到实时交互,是决策者的思维保持连续,又可能挖掘出更深入、更有价值的知识。
5.结束语
从以上分析可以看出,数据仓库与数据挖掘技术相辅相成,数据仓库在纵向和横向都为数据挖掘提供了更广阔的活动空间。数据仓库完成了数据的收集、集成、存储、管理等工作,数据挖掘面对的是经初步加工的数据,能更专注于知识的发现;另一方面,由于数据仓库所具有的新的特点,又对数据挖掘技术提出了更高的要求,可以说,数据挖掘技术要充分发挥潜力,就必须和数据仓库的发展结合起来。
参考文献:
[1]周根贵,数据仓库与数据挖掘 浙江大学出版社,2011年3月
[2]罗森林,马骏,潘丽敏 数据挖掘理论与技术 电子工业出版社,2013年1月
[3]李春葆,李石君,李驰 数据仓库与数据挖掘技术实践 电子工业出版社,2014年11月
作者简介:张军,1960年11月出生,北京市人,研究生文化,高级工程师
[关键词]数据仓库;数据挖掘
中图分类号:G26 文献标识码:A 文章编号:1009-914X(2016)21-0162-02
1、 引言
计算机应用技术已经深入到各行各业,用户除了用计算机处理日常事务外,更需要从大量数据中归纳出业务的规律性和发展趋势,以支持决策的制定。数据仓库就是在这样一种背景下产生的,如何将这些海量的数据从数据仓库中提取出来,并转为有用的信息,仍然是一个亟待解决的问题。为此,人们进行了多方面的研究尝试,数据挖掘技术就是其中的一种新技术。从目前的形势看,数据仓库和数据挖掘技术紧跟互联网的发展,成为企业在信息社会中获胜的又一关键。
2、 数据仓库
2.1 数据仓库概念和基本特征
数据仓库,是为企业制定决策过程,提供所有类型数据支持的战略集合。斯坦福大学数据仓库研究小组是这样定于数据仓库的:“数据仓库是继承信息的存储中心,这些信息可用于查询或分析”;公认的数据库之父比尔·恩门将其定义为:“数据仓库是面向主题的、集成的、相对稳定的、反映时间变化的数据集合,用以支持管理决策。”
基本特征:
(1)面向主题:操作型数据库的数据组织面向事务处理任务,而数据仓库中的数据是按照一定的主题域进行组织。主题是指用户使用数据库进行决策时所关心的重点方面,一个在较高层次将数据归类的标准,每一个主题对应一个宏观分析领域。基于主题的数据被划分为各自独立的领域,每个领域有自己互补交叉的逻辑内涵。
(2)集成:是指原始数据进入数据库前,将来自于分散的操作型数据,从原来的数据中抽取出来,必须先经过加工与集成,统一与综合之后才能进入数据仓库,并将原始数据的结构从面向应用转换到面向主题,消除原数据中的不一致,以保证数据仓库内的信息是关于整个企业的一致的全局信息。
(3)稳定:某个数据进入数据仓库后,一般情况下将被长期保留,是不可更新的,主要是进行数据查询,修改、删除操作很少,通常只需要定期进行加载、刷新。时值数据仓库在某一时刻供用户分析处理是不能进行数据更新操作的,而不是说数据仓库在其整个生命中数据集和总是不变的。
(4)随时间变化:数据仓库是随时间而变化的,传统的数据库系统比较适合处理格式化的数据,能够较好的满足商业商务处理的需求。稳定的数据以只读格式保存,是数据仓库内的历史数据,数据时限长,且数据包含时间项属性。
2.2 数据仓库的体系结构
数据仓库的所有部分结合在一起的结构就是体系结构。它即是一种富有哲理性的方法,也是一种技术,数据和信息从不同的数据源提取出来,然后把这些数据转换成公共的数据模型并且和仓库中已有的数据集成在一起。当用户向仓库进行查询时,需要的信息已经准备好了,数据冲突、表达不一致等问题已经得到了解决,这使得决策查询更容易、更有效。
数据仓库应包括三个组成部分:
(1)数据获取:这个部分负责从外部数据源获取数据。数据被区分出来,进行拷贝或重新定义格式等处理后,准备载入数据仓库。
(2)数据存储:这个部分负责数据仓库的内部维护和管理,提供的服务包括数据存储的组织、数据的维护、数据的分发、数据仓库的例行维护等。
(3)信息传递:信息访问部分数据仓库的前端,面向不同种类型的最终用户,这里主要有桌面系统的各种工具组成。
3.数据挖掘
3.1 数据挖掘的概念
数据挖掘是一个从大量数据中挖掘或抽取出未知的、有价值的模式或规律等知识的复杂过程,它给出了数据的特性或数据之间的关系,是对数据包含的信息更抽象地描述。可以利用图形、文字、表达式等方式;所谓处理过程是指数据挖掘是一个多步骤对大量数据进行分析的过程,包括数据预处理、模式提取、知识评估及过程优化。知识提取往往需要经过多次的反复,通过对相关数据的再处理及知识学习算法的优化,不断提高学习效率。所谓可信、新颖和具有潜在作用是指通过数据挖掘,从当前数据仓库所发现的模式必须有一定的正确程度和新颖性,否则数据挖掘就毫无根据作用。虽然只是发现可以对已有的知识进行验证,但发现新的知识往往更重要,或对已有的知识进行拓展得到更全面、更具有实际意义的知识。发现的知识必须经过实践的检验,并在实际应用中发现问题,对学习数据和策略进行修改,重新进行学习从而得到更精确的知识。
3.2数据挖掘系统的组成
数据挖掘系统中主要的输入是源于数据仓库的数据、分析员的指导,以及存储数据挖掘系统知识库中的知识和经验。从数据仓库中选择的数据在知识发现引擎里处理,引擎中提供了大量的抽取算法,以便生成辅助的模式和关系。有些发现还要加入知识库中,以便后续发现的抽取和进行评价。下面分别介绍各模块的功能:
数据挖掘系统管理器,知识发现系统管理器控制并管理知识发现过程。分析员的输入和知识库中的信息,用于驅动以下三个过程:数据选择过程、抽取算法的选择和使用过程、发现的评价过程。系统管理器帮助生成发现结果的描述,并将恰当发现结果存于知识库已被下一次发现。
知识库和分析员的输入,知识库源于多方面的必需的信息。分析员可以将元数据输入数据仓库中来描述数据仓库的数据结构。此外,分析员还要在知识库中输入其他相关的数据知识,如:数据的关键字段、需求规则、数据层次等,以便按一种有效的方式指导信息发现,减少可能丢失有用的模式和关系;分析员还要做出权衡,存储新的发现结果,提高知识发现的能力。
数据仓库的数据库接口(DB接口),数据挖掘系统利用数据库的查询机制从数据仓库中抽取数据,使用SQL查询语言。知识库总的数据仓库元数据指导数据库接口正确组织数据结构,并正确组织数据结构在数据仓库中存储的方式。 数据选择,确定从数据仓库中需要抽取的数据及数据结构。知识库指导数据选择构建选择要抽取的数据及抽取的方式。如果只需要示例数据,数据选择构建必须有能力选择恰当的随机示例。此外,它还要选择算法所需的数据类型,并将数据类型输入算法。
知识发现引擎,知识发现引擎将知识库中的抽取算法提供给数据选择构建抽取的数据,其目的是要抽取数据元素间的模式和关系。数据挖掘中主要使用的算法有:数据挖掘的信息论方法、数据挖掘的集合论方法、数据挖掘的仿生物方法、公式发现、统计分析方法等。
发现评价,分析员要寻找关键性的数据模式,以用户能了解的方式呈现给用户。用于分析关键性模式的技术包括统计的重点、覆盖级别的置信度因子以及可视化分析等。
发现描述,此构建提供了两种必需的功能,一种是以发现评价辅助分析员,在知识库中保存关键性的发现结果以备将来引用和使用;一种是保持发现与用户的通信。
3.3数据挖掘的技术算法
(1)数据挖掘的信息论方法
该方法是利用信息论原理,计算数据库中各字段的信息量,建立决策书或者决策规则树,比较重要的有ID3方法和IBLE方法。
ID3方法:它是利用信息论中互信息量寻找数据库中具有最大信息量的字段,建立决策书的一个结点,再根据字段的不同取值建立树的分支,叶结点为正例或反例。
IBLE方法:它是利用信息论中信道容量,寻找数据库中信息量从大到小的多个字段的取值建立决策规则树的一个结点,字段的取值是由译码函数按正例标准而决定的值,结点中包含两个阀值(Wn, Wp),结点中的多个字段名、权值、正例标准值、阀值共同构成了一个决策规则。
(2)数据挖掘的集合论方法
粗糙集方法:在数据库中将元素看成行对象,列元素看成属性(分为条件属性和结论属性)。等价关系定义为不同对象在某个属性上相同,这些等价关系的对象组成的集合成为该等价关系的等价类。条件属性上的等价类E与结论属性上的等级类之间有三种关系:下近似,Y包含E;上近似,Y和E的交非空;无关,Y和E的交为空。对下近似建立确立性规则,对上近似建立不确定规则(含可信度),对无关情况不存在规则。
概念树方法:数据库中记录的属性子断案归类方式进行抽象,建立起来的层次结构成为概念树。例:“球类体育运动”的下层是“篮球、排球、网球”等具体的球类运动,其上层是“体育运动”。利用概念树对多个属性字段分层,将得到高度概括的知识基表,再将其转换成规则。
覆盖正例、排斥反例:利用覆盖所有整理、排斥所有范例的思想来寻找规则。
(3)数据挖掘的仿生物方法
神经网络方法:神经网络通过学习待分析数据中的模式来构造模型,一般可对隐类型进行分类,用于非线性的、复杂的数据。神经网络有“神经元”的互连或按层组织的节点构成。通常,神经模型有三个层次组成:输入、中间层和输出。每一神经元求得输入值,再计算总输入值,由过滤机制比较总输入,然后确定其自己的输出值。可通过连接一组神经元来模型化复杂行为。当修改连接层的“连接度”或参数时,神经网络就进行了“学习”和“训练”。这里,神经网络用恰当的数据仓库实力来训练。目前,神经网络以MP和Hebb学习规则为基础,建立了三大类多种神经网络模型。
前馈式网络:它含感知机、反向传播模型、函数型网络、模糊神经网络等,可用于预测、模式识别等方面。
反馈式网络:它以Hopfield的离散模型和连续模型为代表,分别用于联想记忆和优化计算。
自组织网络:它以ART模型、Konolen模型为代表,用于聚类。
遗传算法:是模拟生物进化过程的算法。它由三个基本算子组成:
繁殖(选择):从一个就种群选择出生命力强的个体产生新种群的过程。
交叉(重组):选择两个不同个体的部分进行交换,形成新个体。
变异(突变):对某些个体的某些基因进行变异(1变0,0变1)。
(4)公式发现
在工程和科学数据库中对若干数据项进行一定的数学运算,求得相应的数学公式。
(5)统计分析方法
相关分析和回归分析:相关分析是用相关系数来度量变量间的相关程度。回归分析是用数学方程表示变量间的数量关系,方法有线性回归和非线性回归。
差异分析:从样本统计量的值得出的差异来确定总体参数之间是否存在差异,典型方法有差分析,它是通过分析试验数据中不同来源的变异对总体变异的贡献的大小,从而确定试验中的可控因素是否对实验结果有重要影响。
因子分析:它是用较少的综合变量来表达多个观察变量。根据相关性大小把变量分组,使得分组内的变量之间相关较高,不同组变量间的相关较低。
聚类分析:直接比较样本中某个事物之间的性质,将性质相近的归为一类,而将性质差别比较大的分在不同的类。对变量聚类计算变量间的相关系数。对样本聚类计算样本间的距离。
判别分析:建立一个或多个判别函数,并确定一个判别标准,然后对未知属性的对象,根据测定的观察值,将其划归已知类別中的一类。
(6)其它数据挖掘技术
模糊论方法:利用模糊集合理论对实际问题进行模糊评判、模糊决策、模糊模式识别和模糊聚类分析。由于模糊性是可观的存在,而且系统的复杂性愈高,对他精确化能力便愈低,这就意味着模糊性愈强。
可视化技术:可视化数据分析技术拓宽了传统的图表功能,是用户对数据的剖析更清楚。
地理信息系统:地理可视化系统中的不同物理位置直至地理表示都与仓库中的数据相关。根据地理环境来看待这些数据,并比较相同产品在不同地域的差异,或相同地域不同产品的差异,可分析数据仓库中数据的关系。
分形系统:分形分析试图利用混沌科学来指明模式,然后用分形将多位数据库提供的分析信息存储与数据仓库。其目的是要为大型数据仓库提供OLAP的响应。 4.基于数据仓库的数据挖掘技术
作为数据仓库系统三要素之一的信息访问部分,是最终用户从数据仓库中提取信息、分析数据、实施决策的必经途径。在数据仓库中进行数据挖掘,数据仓库与目前数据挖掘的主要对象——数据库间的本质区别给数据挖掘带来了许多新的特点。
(1)规模:数据仓库中继承和存储来自若干分布、异质的信息源的数据。这些信息源本身就可能是一个规模庞大的数据库,可见数据仓库比一般数据库系统具有更大的数据规模。如何从如此巨量的数据中有效地提取有用的信息,需要各方面技术的进步。从当前发展来看,支持并行处理的分布式DBMS、具有大规模并行处理(MPP)能力的计算机、超大规模的存储机构等技术的发展和协同将使数据仓库走向实用。但要进行数据挖掘我们还必须发展更有效、更快速的算法。。
(2)历史数据:传统的数据库系统为了获得最大的执行效率,往往存储尽可能少的数据量。因为拥有的数据越多,数据组织、重构、浏览、索引和监控的难度就越大,传统数据系统在“时间”轴上的长度很有限。比较而言,数据仓库的根本特征之一就是进行长时间的历史数据存储,这使得我们可以进行数据长期趋势的分析,数据仓库为决策者的长期决策行为提供了独一无二的支持。
(3)数据集成和综合性:从一个企业的角度看,数据仓库集成了企业内各部门的全面地、综合的数据。数据挖掘要面对的是关系更复杂的企业全局模式的知识发现。从这一点上讲,基于数据仓库的数据挖掘能更好的满足高层战略决策的要求。而且,数据仓库机制大大降低了数据挖掘的障碍,一般进行数据挖掘要花大量的力量在数据准备阶段,而在数据仓库中数据已经被充分收集起来,进行了整理、合并,并且有些还进行了初步的分析处理。这样,注意力更集中与数据挖掘的核心处理阶段。另外,数据仓库中对数据不同粒度的集成和综合,更有效的支持了多层次和多種知识的挖掘。
(4)查询支持:数据仓库面向决策支持。数据仓库的体系结构努力保证查询(Query)和分析的实时性。而一般的联机事务处理(OLTP)系统主要要求更新(Update)的实时性,对查询的性能要求相对较弱。一般的数据仓库设计成只读方式,最终用户不能直接更新数据仓库。数据更新由专门的一套机制保证,通常由系统自动更新和管理员控制来协同完成。数据仓库对查询的强大支持使数据挖掘效率更高,挖掘过程可以做到实时交互,是决策者的思维保持连续,又可能挖掘出更深入、更有价值的知识。
5.结束语
从以上分析可以看出,数据仓库与数据挖掘技术相辅相成,数据仓库在纵向和横向都为数据挖掘提供了更广阔的活动空间。数据仓库完成了数据的收集、集成、存储、管理等工作,数据挖掘面对的是经初步加工的数据,能更专注于知识的发现;另一方面,由于数据仓库所具有的新的特点,又对数据挖掘技术提出了更高的要求,可以说,数据挖掘技术要充分发挥潜力,就必须和数据仓库的发展结合起来。
参考文献:
[1]周根贵,数据仓库与数据挖掘 浙江大学出版社,2011年3月
[2]罗森林,马骏,潘丽敏 数据挖掘理论与技术 电子工业出版社,2013年1月
[3]李春葆,李石君,李驰 数据仓库与数据挖掘技术实践 电子工业出版社,2014年11月
作者简介:张军,1960年11月出生,北京市人,研究生文化,高级工程师