论文部分内容阅读
摘 要:从数据挖掘的概念入手,分析了其主要任务,从其现状中研究了其存在的问题及发展趋势,重点探讨了数据挖掘的应用步骤与方法,给出了一个数据挖掘软件的造型原则。为企业快速、低成本构建客户管理系统、CRM系统、数据挖掘应用系统提供参考与借鉴。
关键词:数据挖掘;数据仓库;数据转换
中图分类号:TP274 文献标识码:A
The Reserch of Data Mining Technology
ZHANG ying,LV Hui-juan
(Computer center, Henan University, Henan Kaifeng 475001)
Key words: Data Mining; Data Warehouse ; Data Conversion.
新兴的数据挖掘技术,是从大量、无序、静态的数据中发现有价值的规律和模式的过程,在企业客户管理中或其他应用程序中应用数据仓库技术和数据挖掘技术,可以使相应的开发更高效,比如能预测客户将来的各种消费行为,为企业实施更精确的客户管理和市场营销提供参考,使企业在市场竞争中占据更有利的位置。下面是笔者就数据挖掘技术作以分析研究。
1 数据挖掘概述
数据挖掘(Data Mining)是从大量的、不完全的、有噪声的、模糊的、随机的数据中提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程[1]。随着信息技术的高速发展,人们积累的数据量急剧增长,动辄以TB计,如何从海量的数据中提取有用的知识成为当务之急。数据挖掘就是为顺应这种需要应运而生发展起来的数据处理技术。是知识发现(Knowledge Discovery in Database)的关键步骤。
2 数据挖掘的任务
数据挖掘的任务主要是关联分析、聚类分析、分类、估计、预测、时序模式和偏差分析。
2.1关联分析
关联规则挖掘是由Rakesh Apwal等人首先提出的。两个或两个以上变量的取值之间存在某种规律性,就称为关联。数据关联是数据库中存在的一类重要的、可被发现的知识。
2.2聚类分析
聚类是把各不相同的个体分割成更多相似性的子类的工作,有点类似于对象细分工作。聚类与分类的区别在于聚类不依赖于事先定义的值[2]。
2.3分类
分类是最常见的数据挖掘任务之一,分类是基于一个可预测属性或特征把事物分成多个类别,每个类别包含一个或多个其它属性,其中有一个可以预测的属性。分类任务要求找到一个模型,该模型将类别属性定义为输入属性的函数,分类是一种有目标数据的算法,也称为有监督的算法[3],典型的分类算法有决策树算法、神经网络算法和贝叶斯算法等。
2.4估计
分类的结果是离散的,而估计的值则是连续的,输入一组数据,估计算法会给出一个未知的、连续变化的值。在客户管理中,通常会设定一个忠诚度范围,所有的客户的忠诚度都在此范围内浮动,得分越高表明忠诚度越高,这样可把客户的忠诚度从高到低排序,得出一张表,企业可根据此表采取相应的措施。
2.5预测(predication)
预测与分类、估计一样,但其中记录的分类依据是一些可预测的未来的值。
2.6时序模式(time-series pattern)
时序模式是指通过时间序列搜索出的重复发生概率较高的模式。与回归一样,它也是用己知的数据预测未来的值,但这些数据的区别是变量所处时间的不同。
2.7偏差分析(deviation)
在偏差中包括很多有用的知识,数据库中的数据存在很多异常情况,发现数据库中数据存在的异常情况是非常重要的。偏差检验的基本方法就是寻找观察结果与参照之间的差别。
3 数据挖掘现状与趋势
3.1现状
数据挖掘是从大量的数据中发现潜在有价值模式的过程,从一开始就是面向应用的。它不仅是面向特定数据库的简单检索查询调用,而且要对这些数据进行统计、分析、综合和推理,以指导实际问题的求解,企图发现事件间的相互关联,甚至利用已有的数据对未来的活动进行预测,这种需求的驱动力 ,比简单的数据库查询要强大的多。
3.2数据挖掘中存在的问题
尽管数据挖掘有如此多的优点,但数据挖掘也面临着许多的问题,这也为数据挖掘的未来的发展提供了更大的空间。
数据挖掘的基本问题就在于数据的数量和维数,数据结构也因此显的非常复杂,如何进行探索,选择分析变量,也就成为首先要解决的问题。
面对如此大的数据,现有的统计方法等都遇到了问题,我们直接的想法就是对数据进行抽样,那么怎么抽样,抽取多大的样本,又怎样评价抽样的效果,这些都是值得研究的难题。
既然数据是海量的,那么数据中就会隐含一定的变化趋势,在数据挖掘中也要对这个趋势做应有的考虑和评价。
各种不同的模型如何应用,其效果如何评价。不同的人对同样的数据进行挖掘,可能产生不同的结果,甚至差异很大,这就涉及到可靠性的问题。
当前互联网的发展迅速,如何进行互联网的的数据挖掘,还有文本等非标准数据的挖掘,都引起了极大的兴趣。
数据挖掘涉及到数据也就碰到了数据的私有性和安全性。
数据挖掘的结果是不确定的,要和专业知识相结合才能对其做出判断。
总之,数据挖掘只是一个工具,不是万能的,它可以发现一些潜在的用户,但是不会告诉你为什么,也不能保证这些潜在的用户成为现实。数据挖掘的成功要求对期望解决问题的领域有深刻的了解,理解数据,了解其过程,才能对数据挖掘的结果找出合理的解释。
4 数据挖掘的应用步骤与方法
数据挖掘是指一个完整的过程,该过程从大型数据库中挖掘先前未知的、有效的、可实用的信息和数据,并使这些信息做出决策或丰富知识。
数据挖掘环境可示意如下:

数据仓库并不是数据挖掘的先决条件,因为有很多数据挖掘可直接从操作数据源中挖掘信息[4]。下图描述了数据挖掘的基本过程和主要步骤:

4.1确定商业任务
这一步是最重要的一步,解决了要"干什么的"问题,结合这个具体的商业问题,选择合适的数据源,并把它们按一定的规则组织起来,形成数据集市,为下一步的数据准备打下基础。
4.2数据采集
在数据采集技术里,各个数据库厂商都提供了类似的数据转换,微软公司在SQL SERVER2005里提供了一项SSIS服务,可以把不同的数据源,包括规范化的RDBMS,非规范的文件、EXCEL数据等,统一通过OLE DB技术集成到一起,最大限度的整合了数据资源,降低了成本。
4.3数据转换
数据转换是数据挖掘中资源密集程度最高的一步,清理的目的是除去不相关的信息,规范化数据的格式和范围,包括:数据类型转换、连续列转换、分组、聚集、缺失值处理、包括空值和不正确的值删除孤立点。
4.4构建模型
这是比较关键的一步,在构建前,需要明确数据挖掘的任务类型,确定可输入列和预测列或输出列,并选择合适的数据挖掘算法。为了达到更好的效果,需要与此问题领域的业务专家合作。
模型构建是数据挖掘中最核心的一步,对于每一个具体的商业问题,都有一个合适的挖掘算法。大多数情况下,在构建模型之前并不知道哪一种算法是最合适的。算法的精确度依赖于数据的性质,比如可预测属性的个数、每个属性的值分布、属性之间的关系等。
正确的方法使用不同的算法构建多个模型,然后使用一些工具来比较这些模型精确度,即使是使用同一算法,也应该是使用不同的参数值来构建多个模型,以便调整模型的精确度。
4.5模型评估
在模型评估阶段,还要与商业分析人员探讨发现模式的意义。因为模型有时会包含一些没有用的模式,这可能是数据仓库是完全随机的原因造成的,因此,要尽可能使用实际的数据集;也有可能是模型中的变量不是最合适的,这需要反反复复的执行数据清理和转换步骤。
4.6模型管理
数据挖掘模型有一个生命周期,在它的生命周期之外,必须定期维护模式,以便模式更符合实际的商业情况,比如,在网上书店系统中,第天都会有新书,这意味着关联规则每天都需要。
与其它数据一样,数据挖掘模型也存在安全问题,应为这些数据设置为不同的权限,特别是数据模式与其它应用系统集成时,更是要注意用户访问权限的设置。
4.7数据挖掘软件的选型原则
越来越多的软件供应商加入了数据挖掘这一领域的竞争。用户如何正确评价一个商业软件,选择合适的软件成为数据挖掘成功应用的关键。
评价一个数据挖掘软件主要应从以下四个主要方面[5]:
计算性能:如该软件能否在不同的商业平台运行;软件的架构;能否连接不同的数据源操作大数据集时,性能变化是线性的还是指数的;算的效率;是否基于组件结构易于扩展;运行的稳定性等;
功能性:如软件是否提供足够多样的算法;能否避免挖掘过程黑箱化;软件提供的算法能否应用于多种类型的数据;用户能否调整算法和算法的参数;软件能否从数据集随机抽取数据建立预挖掘模型;能否以不同的形式表现挖掘结果等;
可用性:如用户界面是否友好;软件是否易学易用;软件面对的用户:初学者,高级用户还是专家?错误报告对用户调试是否有很大帮助;软件应用的领域:是专攻某一专业领域还是适用多个领域等;
辅助功能:如是否允许用户更改数据集中的错误值或进行数据清洗;是否允许值的全局替代;能否将连续数据离散化;能否根据用户制定的规则从数据集中提取子集;能否将数据中的空值用某一适当均值或用户指定的值代替;能否将一次分析的结果反馈到另一次分析中等因素。
5 结束语
本文只是对数据挖掘的任务、现状和趋势及应用步骤进行了分析与研究,而对其具体应用没有提及,以后会结合实际例子对它的应用给予研究。
参考文献:
[1]叶孝明.数据挖掘在客户关系管理中的应用研究[D].东南大学,2006.
[2]张颖,杜斌,钟永红.数据挖掘技术在银行客户关系管理中的应用分析[J].经济师,2005(03):231-233.
[3]孙波.基于数据挖掘的银行客户贡献度分析系统框架[J].机械管理开发,2005(02):64-66,69.
[4]杨红.数据挖掘技术在商业银行客户关系管理中的应用[J].特区经济,2005(05):369-370.
[5]杨光.浅析数据挖掘在CRM中的应用[J].情报科学,2005,(02):119-121.
关键词:数据挖掘;数据仓库;数据转换
中图分类号:TP274 文献标识码:A
The Reserch of Data Mining Technology
ZHANG ying,LV Hui-juan
(Computer center, Henan University, Henan Kaifeng 475001)
Key words: Data Mining; Data Warehouse ; Data Conversion.
新兴的数据挖掘技术,是从大量、无序、静态的数据中发现有价值的规律和模式的过程,在企业客户管理中或其他应用程序中应用数据仓库技术和数据挖掘技术,可以使相应的开发更高效,比如能预测客户将来的各种消费行为,为企业实施更精确的客户管理和市场营销提供参考,使企业在市场竞争中占据更有利的位置。下面是笔者就数据挖掘技术作以分析研究。
1 数据挖掘概述
数据挖掘(Data Mining)是从大量的、不完全的、有噪声的、模糊的、随机的数据中提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程[1]。随着信息技术的高速发展,人们积累的数据量急剧增长,动辄以TB计,如何从海量的数据中提取有用的知识成为当务之急。数据挖掘就是为顺应这种需要应运而生发展起来的数据处理技术。是知识发现(Knowledge Discovery in Database)的关键步骤。
2 数据挖掘的任务
数据挖掘的任务主要是关联分析、聚类分析、分类、估计、预测、时序模式和偏差分析。
2.1关联分析
关联规则挖掘是由Rakesh Apwal等人首先提出的。两个或两个以上变量的取值之间存在某种规律性,就称为关联。数据关联是数据库中存在的一类重要的、可被发现的知识。
2.2聚类分析
聚类是把各不相同的个体分割成更多相似性的子类的工作,有点类似于对象细分工作。聚类与分类的区别在于聚类不依赖于事先定义的值[2]。
2.3分类
分类是最常见的数据挖掘任务之一,分类是基于一个可预测属性或特征把事物分成多个类别,每个类别包含一个或多个其它属性,其中有一个可以预测的属性。分类任务要求找到一个模型,该模型将类别属性定义为输入属性的函数,分类是一种有目标数据的算法,也称为有监督的算法[3],典型的分类算法有决策树算法、神经网络算法和贝叶斯算法等。
2.4估计
分类的结果是离散的,而估计的值则是连续的,输入一组数据,估计算法会给出一个未知的、连续变化的值。在客户管理中,通常会设定一个忠诚度范围,所有的客户的忠诚度都在此范围内浮动,得分越高表明忠诚度越高,这样可把客户的忠诚度从高到低排序,得出一张表,企业可根据此表采取相应的措施。
2.5预测(predication)
预测与分类、估计一样,但其中记录的分类依据是一些可预测的未来的值。
2.6时序模式(time-series pattern)
时序模式是指通过时间序列搜索出的重复发生概率较高的模式。与回归一样,它也是用己知的数据预测未来的值,但这些数据的区别是变量所处时间的不同。
2.7偏差分析(deviation)
在偏差中包括很多有用的知识,数据库中的数据存在很多异常情况,发现数据库中数据存在的异常情况是非常重要的。偏差检验的基本方法就是寻找观察结果与参照之间的差别。
3 数据挖掘现状与趋势
3.1现状
数据挖掘是从大量的数据中发现潜在有价值模式的过程,从一开始就是面向应用的。它不仅是面向特定数据库的简单检索查询调用,而且要对这些数据进行统计、分析、综合和推理,以指导实际问题的求解,企图发现事件间的相互关联,甚至利用已有的数据对未来的活动进行预测,这种需求的驱动力 ,比简单的数据库查询要强大的多。
3.2数据挖掘中存在的问题
尽管数据挖掘有如此多的优点,但数据挖掘也面临着许多的问题,这也为数据挖掘的未来的发展提供了更大的空间。
数据挖掘的基本问题就在于数据的数量和维数,数据结构也因此显的非常复杂,如何进行探索,选择分析变量,也就成为首先要解决的问题。
面对如此大的数据,现有的统计方法等都遇到了问题,我们直接的想法就是对数据进行抽样,那么怎么抽样,抽取多大的样本,又怎样评价抽样的效果,这些都是值得研究的难题。
既然数据是海量的,那么数据中就会隐含一定的变化趋势,在数据挖掘中也要对这个趋势做应有的考虑和评价。
各种不同的模型如何应用,其效果如何评价。不同的人对同样的数据进行挖掘,可能产生不同的结果,甚至差异很大,这就涉及到可靠性的问题。
当前互联网的发展迅速,如何进行互联网的的数据挖掘,还有文本等非标准数据的挖掘,都引起了极大的兴趣。
数据挖掘涉及到数据也就碰到了数据的私有性和安全性。
数据挖掘的结果是不确定的,要和专业知识相结合才能对其做出判断。
总之,数据挖掘只是一个工具,不是万能的,它可以发现一些潜在的用户,但是不会告诉你为什么,也不能保证这些潜在的用户成为现实。数据挖掘的成功要求对期望解决问题的领域有深刻的了解,理解数据,了解其过程,才能对数据挖掘的结果找出合理的解释。
4 数据挖掘的应用步骤与方法
数据挖掘是指一个完整的过程,该过程从大型数据库中挖掘先前未知的、有效的、可实用的信息和数据,并使这些信息做出决策或丰富知识。
数据挖掘环境可示意如下:

数据仓库并不是数据挖掘的先决条件,因为有很多数据挖掘可直接从操作数据源中挖掘信息[4]。下图描述了数据挖掘的基本过程和主要步骤:

4.1确定商业任务
这一步是最重要的一步,解决了要"干什么的"问题,结合这个具体的商业问题,选择合适的数据源,并把它们按一定的规则组织起来,形成数据集市,为下一步的数据准备打下基础。
4.2数据采集
在数据采集技术里,各个数据库厂商都提供了类似的数据转换,微软公司在SQL SERVER2005里提供了一项SSIS服务,可以把不同的数据源,包括规范化的RDBMS,非规范的文件、EXCEL数据等,统一通过OLE DB技术集成到一起,最大限度的整合了数据资源,降低了成本。
4.3数据转换
数据转换是数据挖掘中资源密集程度最高的一步,清理的目的是除去不相关的信息,规范化数据的格式和范围,包括:数据类型转换、连续列转换、分组、聚集、缺失值处理、包括空值和不正确的值删除孤立点。
4.4构建模型
这是比较关键的一步,在构建前,需要明确数据挖掘的任务类型,确定可输入列和预测列或输出列,并选择合适的数据挖掘算法。为了达到更好的效果,需要与此问题领域的业务专家合作。
模型构建是数据挖掘中最核心的一步,对于每一个具体的商业问题,都有一个合适的挖掘算法。大多数情况下,在构建模型之前并不知道哪一种算法是最合适的。算法的精确度依赖于数据的性质,比如可预测属性的个数、每个属性的值分布、属性之间的关系等。
正确的方法使用不同的算法构建多个模型,然后使用一些工具来比较这些模型精确度,即使是使用同一算法,也应该是使用不同的参数值来构建多个模型,以便调整模型的精确度。
4.5模型评估
在模型评估阶段,还要与商业分析人员探讨发现模式的意义。因为模型有时会包含一些没有用的模式,这可能是数据仓库是完全随机的原因造成的,因此,要尽可能使用实际的数据集;也有可能是模型中的变量不是最合适的,这需要反反复复的执行数据清理和转换步骤。
4.6模型管理
数据挖掘模型有一个生命周期,在它的生命周期之外,必须定期维护模式,以便模式更符合实际的商业情况,比如,在网上书店系统中,第天都会有新书,这意味着关联规则每天都需要。
与其它数据一样,数据挖掘模型也存在安全问题,应为这些数据设置为不同的权限,特别是数据模式与其它应用系统集成时,更是要注意用户访问权限的设置。
4.7数据挖掘软件的选型原则
越来越多的软件供应商加入了数据挖掘这一领域的竞争。用户如何正确评价一个商业软件,选择合适的软件成为数据挖掘成功应用的关键。
评价一个数据挖掘软件主要应从以下四个主要方面[5]:
计算性能:如该软件能否在不同的商业平台运行;软件的架构;能否连接不同的数据源操作大数据集时,性能变化是线性的还是指数的;算的效率;是否基于组件结构易于扩展;运行的稳定性等;
功能性:如软件是否提供足够多样的算法;能否避免挖掘过程黑箱化;软件提供的算法能否应用于多种类型的数据;用户能否调整算法和算法的参数;软件能否从数据集随机抽取数据建立预挖掘模型;能否以不同的形式表现挖掘结果等;
可用性:如用户界面是否友好;软件是否易学易用;软件面对的用户:初学者,高级用户还是专家?错误报告对用户调试是否有很大帮助;软件应用的领域:是专攻某一专业领域还是适用多个领域等;
辅助功能:如是否允许用户更改数据集中的错误值或进行数据清洗;是否允许值的全局替代;能否将连续数据离散化;能否根据用户制定的规则从数据集中提取子集;能否将数据中的空值用某一适当均值或用户指定的值代替;能否将一次分析的结果反馈到另一次分析中等因素。
5 结束语
本文只是对数据挖掘的任务、现状和趋势及应用步骤进行了分析与研究,而对其具体应用没有提及,以后会结合实际例子对它的应用给予研究。
参考文献:
[1]叶孝明.数据挖掘在客户关系管理中的应用研究[D].东南大学,2006.
[2]张颖,杜斌,钟永红.数据挖掘技术在银行客户关系管理中的应用分析[J].经济师,2005(03):231-233.
[3]孙波.基于数据挖掘的银行客户贡献度分析系统框架[J].机械管理开发,2005(02):64-66,69.
[4]杨红.数据挖掘技术在商业银行客户关系管理中的应用[J].特区经济,2005(05):369-370.
[5]杨光.浅析数据挖掘在CRM中的应用[J].情报科学,2005,(02):119-121.