论文部分内容阅读
摘 要:数据挖掘作为一门新兴的交叉学科,正在国计民生的各个领域发挥日益重要的作用,本文对数据挖掘的相关方面进行了介绍,包括数据挖掘的概念、过程、技术与方法、应用以及发展前景等。
关键词:数据挖掘;挖掘过程;技术与方法;发展前景
1.数据挖掘概述
随着信息技术的飞速发展,人类在各个领域所积累的数据正以指数方式增长,现代社会的竞争趋势要求对这些海量的数据进行实时的和深层次的分析,以揭示隐藏在这些数据背后的潜在更有用的信息,为决策部门在决策制定过程中提供重要的参考依据。为了解决这个在信息领域具有普遍性的“知识发现”问题(KDD),数据挖掘(DM,又称为数据采掘、数据开采)技术应运而生。数据挖掘(Data Mining)就是从大量的、不完全的、有噪声的、模糊的、随机的数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。特别要指出的是,数据挖掘技术从一开始就是面向应用的。它不仅是面向特定数据库的简单检索查询调用,而且要对这些数据进行微观、中观乃至宏观的统计、分析、综合和推理,以指导实际问题的求解,企图发现事件间的相互关联,甚至利用已有的数据对未来的活动进行预测。数据挖掘广泛应用于各个领域,如银行、电信、保险、零售、生物、基因、电子商务。
2.数据挖掘过程
(1)确定业务对象
清晰地定义业务问题,认清数据挖掘的目的是数据挖掘的重要一步。挖掘的最后结构是不可预测的,但要探索的问题应是有预见的,为了数据挖掘而数据挖掘则带有盲目性,是不会成功的。
(2)数据准备
数据的选择:搜索所有与业务对象有关的内部和外部数据信息,并从中选择出适用于数据挖掘应用的数据。
数据的预处理:研究数据的质量,为进一步分析作准备。并确定将要进行的挖掘操作类型。
数据的转换:将数据转换成一个分析模型。这个分析模型是针对挖掘算法建立的。建立一个真正适合挖掘算法的分析模型是数据挖掘成功的关键。
(3)数据挖掘
对所得到的经过转换的数据进行挖掘。除了完善从选择合适的挖掘算法外,其余一切工作都能自动地完成。
(4)结果分析
解释并评估结果。其使用的分析方法一般应作数据挖掘操作而定,通常会用到可视化技术。
(5)知识的同化
将分析所得到的知识集成到业务信息系统的组织结构中去。
3.数据挖掘常用技术与方法
数据挖掘的核心技术是人工智能、机器学习、数学统计等,但它并非多种技术的简单组合,而是一个不可分割的整体,还需要其他技术的支持,才能挖掘出令用户满意的结果。具体来说,数据挖掘方法和技术可以分为以下几类:
(1)决策树方法
这是数据挖掘中经常使用的方法,它可以用来进行数据分析,也可以用来做预测。决策树(decision tree)用树形结构来表示决策集合,这些决策集合通过对数据集的分类产生规则。
(2)人工神经网络方法
人工神经网络方法从结构上模仿生物神经网络,是一种通过训练来学习的非线性预测模型。它将每一个连接看作一个处理单元(PE),试图模拟人脑神经元的功能。它可以完成分类、聚类、特征挖掘等多种数据挖掘任务。其最大优点是能精确地对复杂问题进行预测。
(3)统计分析方法
统计分析是应用最早、也是目前最成熟和行之有效的一种数据挖掘方法。该方法的关键是构造合适的统计模型和数学模型来解释被分析的数据模式。这种方法要求使用者具备较为丰富的领域知识。统计分析一般由两大步骤构成:首先,从数据仓库中选择抽取适当的数据;其次,执行统计分析工具中提供的可视化功能和分析功能来寻找数据间的关系,并构造统计模型和数学模型来解释数据。其中第二步反复并不断求精。
(4)模糊数学方法
客观事物往往具有某种不确定性。系统的复杂性越高,则其精确性越低,也就意味着模型性越强。在数据挖掘过程中,利用模糊数学方法对实际问题进行模糊评判、模糊决策、模糊识别和模糊聚类,往往能够取得更好的效果。
(5)遗传算法
这是一种新的优化技术,借用了生物遗传学的观点,通过自然选择、遗传、变异等作用机制,实现各个体适应性的提高。其基本思想是:随着时间的更替,只有最适合的物种才得以进化。在遗传算法的实施中,首先要对求解的问题进行编码(称为染色体),产生初始群体,然后计算个体的适应度;再进行染色体的复制、交换、突变等操作,产生新个体;重复这个操作,直到求得最佳或较佳个体。遗传算法能够解决许多其它技术难以解决的问题。
(6)可视化技术
数据与结果被转化和表达成可视化形式,如图形或图像,能够帮助人们进行快速直观地分析数据。利用可视化方法,很容易找到数据之间可能存在的模式、关系和异常情况等。
4.数据挖掘的应用
随着大量算法的完善、挖掘过程的系统化、规范化以及工具的不断推陈出新,数据挖掘技术已显现了它广泛的应用前景。
(1)在医学上的应用
利用数据挖掘技术在DNA数据的分析研究中可以进行DNA序列间的相似搜索和比较、同时出现的基因序列的相关分析、致病基因的发现和遗传数据分析等。
(2)在金融领域中的应用
通过特征选择和属性相关性计算,识别关键因素,进行贷款偿付预测和客户信用分析,使银行优化调整贷款发放政策;利用分类和聚集的方法进行用户群体识别和目标市场分析;把与侦破工作有关的多个数据库的信息集成起来,使用数据可视化、分类、聚类分析等工具侦破洗钱和其他金融犯罪行为。
(3)在商业零售业中的应用
利用数据挖掘可以进行销售、顾客、产品、时间和地区的多维分析;促销活动的有效性分析;顾客忠诚度的分析;购买推荐分析以及相关商品的参照促销等。
(4)在电信业中的应用
在电信市场激烈的竞争和迅速的业务扩张中,可以利用数据挖掘技术的帮助来理解商业行为、确定电信模式、捕捉盗用行为,更好地利用资源和提高服务质量。
现在已经应用数据挖掘技术的领域都是信息丰富、环境多变、尚无模型、需要知识帮助进行管理和决策的领域。如政府管理决策、商业经营、科学研究和企业决策支持等领域,都可以采用数据挖掘技术解决许多问题。数据挖掘从大量数据中提取出隐藏在数据之后的有用的信息,被越来越多的领域所采用,并取得了较好的效果,为人们的正确决策提供了很大的帮助。
5.数据挖掘的发展前景
近几年对于数据挖掘的研究发展很快,预计在未来若干年,研究还会形成更大的高潮,研究的总体发展方向可能会集中到以下几个方面:
(1)专业开发语言出现。研究专门用于知识发现的数据挖掘语言,并使其走向形式化和标准化。
(2)寻求数据挖掘过程中更优秀的可视化方法。实现在知识发现的过程中进行人机交互,图文数并茂,便于知识发现的过程能够很容易的被用户理解。
(3)研究基于网络环境下的数据挖掘技术(Web Mining),特别是在因特网上建立DMKD服务器,并且与数据库服务器配合,实现网络(远程)数据挖掘。
(4)加强对各种非结构化数据的开采(Data Mining for Audio & Video),如对图形数据、视频图像数据、声音数据乃至综合多媒体数据的开采,这些数据类型或者比较复杂,或者是结构比较独特。为了处理这些复杂的数据,就需要一些新的和更好的分析和建模方法,同时还会涉及到为处理这些复杂或独特数据所做的费时和复杂数据准备的一些工具和软件。
(5)挖掘软件的适用性更加灵活。如果一次挖掘不能实现相应的目标,可以进行交互式、动态性、分层挖掘等,即交互挖掘技术的发展。
(6)出现功能较强大的专用数据挖掘软件。就目前来看,将来的几个热点发展方向包括网站的数据挖掘、生物信息或基因的数据挖掘及其文本的数据挖掘等,这些领域具有独特的数据性质,需要由独特的专用软件来支持。
(7)空间数据挖掘(Spatial Data Mining)将有所突破。
(8)研究更有效的方法,使挖掘过程中的数据更安全。
参考文献:
[1]Jiawei Han, Micheline Kamber著.范明,孟小峰等译.数据挖掘一概念与技术[M].北京:机械工业出版社,2006.
[2]苏新宁,杨建林,江念南,栗湘.数据仓库和数据挖掘[M].北京:清华大学出版社,2006.
关键词:数据挖掘;挖掘过程;技术与方法;发展前景
1.数据挖掘概述
随着信息技术的飞速发展,人类在各个领域所积累的数据正以指数方式增长,现代社会的竞争趋势要求对这些海量的数据进行实时的和深层次的分析,以揭示隐藏在这些数据背后的潜在更有用的信息,为决策部门在决策制定过程中提供重要的参考依据。为了解决这个在信息领域具有普遍性的“知识发现”问题(KDD),数据挖掘(DM,又称为数据采掘、数据开采)技术应运而生。数据挖掘(Data Mining)就是从大量的、不完全的、有噪声的、模糊的、随机的数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。特别要指出的是,数据挖掘技术从一开始就是面向应用的。它不仅是面向特定数据库的简单检索查询调用,而且要对这些数据进行微观、中观乃至宏观的统计、分析、综合和推理,以指导实际问题的求解,企图发现事件间的相互关联,甚至利用已有的数据对未来的活动进行预测。数据挖掘广泛应用于各个领域,如银行、电信、保险、零售、生物、基因、电子商务。
2.数据挖掘过程
(1)确定业务对象
清晰地定义业务问题,认清数据挖掘的目的是数据挖掘的重要一步。挖掘的最后结构是不可预测的,但要探索的问题应是有预见的,为了数据挖掘而数据挖掘则带有盲目性,是不会成功的。
(2)数据准备
数据的选择:搜索所有与业务对象有关的内部和外部数据信息,并从中选择出适用于数据挖掘应用的数据。
数据的预处理:研究数据的质量,为进一步分析作准备。并确定将要进行的挖掘操作类型。
数据的转换:将数据转换成一个分析模型。这个分析模型是针对挖掘算法建立的。建立一个真正适合挖掘算法的分析模型是数据挖掘成功的关键。
(3)数据挖掘
对所得到的经过转换的数据进行挖掘。除了完善从选择合适的挖掘算法外,其余一切工作都能自动地完成。
(4)结果分析
解释并评估结果。其使用的分析方法一般应作数据挖掘操作而定,通常会用到可视化技术。
(5)知识的同化
将分析所得到的知识集成到业务信息系统的组织结构中去。
3.数据挖掘常用技术与方法
数据挖掘的核心技术是人工智能、机器学习、数学统计等,但它并非多种技术的简单组合,而是一个不可分割的整体,还需要其他技术的支持,才能挖掘出令用户满意的结果。具体来说,数据挖掘方法和技术可以分为以下几类:
(1)决策树方法
这是数据挖掘中经常使用的方法,它可以用来进行数据分析,也可以用来做预测。决策树(decision tree)用树形结构来表示决策集合,这些决策集合通过对数据集的分类产生规则。
(2)人工神经网络方法
人工神经网络方法从结构上模仿生物神经网络,是一种通过训练来学习的非线性预测模型。它将每一个连接看作一个处理单元(PE),试图模拟人脑神经元的功能。它可以完成分类、聚类、特征挖掘等多种数据挖掘任务。其最大优点是能精确地对复杂问题进行预测。
(3)统计分析方法
统计分析是应用最早、也是目前最成熟和行之有效的一种数据挖掘方法。该方法的关键是构造合适的统计模型和数学模型来解释被分析的数据模式。这种方法要求使用者具备较为丰富的领域知识。统计分析一般由两大步骤构成:首先,从数据仓库中选择抽取适当的数据;其次,执行统计分析工具中提供的可视化功能和分析功能来寻找数据间的关系,并构造统计模型和数学模型来解释数据。其中第二步反复并不断求精。
(4)模糊数学方法
客观事物往往具有某种不确定性。系统的复杂性越高,则其精确性越低,也就意味着模型性越强。在数据挖掘过程中,利用模糊数学方法对实际问题进行模糊评判、模糊决策、模糊识别和模糊聚类,往往能够取得更好的效果。
(5)遗传算法
这是一种新的优化技术,借用了生物遗传学的观点,通过自然选择、遗传、变异等作用机制,实现各个体适应性的提高。其基本思想是:随着时间的更替,只有最适合的物种才得以进化。在遗传算法的实施中,首先要对求解的问题进行编码(称为染色体),产生初始群体,然后计算个体的适应度;再进行染色体的复制、交换、突变等操作,产生新个体;重复这个操作,直到求得最佳或较佳个体。遗传算法能够解决许多其它技术难以解决的问题。
(6)可视化技术
数据与结果被转化和表达成可视化形式,如图形或图像,能够帮助人们进行快速直观地分析数据。利用可视化方法,很容易找到数据之间可能存在的模式、关系和异常情况等。
4.数据挖掘的应用
随着大量算法的完善、挖掘过程的系统化、规范化以及工具的不断推陈出新,数据挖掘技术已显现了它广泛的应用前景。
(1)在医学上的应用
利用数据挖掘技术在DNA数据的分析研究中可以进行DNA序列间的相似搜索和比较、同时出现的基因序列的相关分析、致病基因的发现和遗传数据分析等。
(2)在金融领域中的应用
通过特征选择和属性相关性计算,识别关键因素,进行贷款偿付预测和客户信用分析,使银行优化调整贷款发放政策;利用分类和聚集的方法进行用户群体识别和目标市场分析;把与侦破工作有关的多个数据库的信息集成起来,使用数据可视化、分类、聚类分析等工具侦破洗钱和其他金融犯罪行为。
(3)在商业零售业中的应用
利用数据挖掘可以进行销售、顾客、产品、时间和地区的多维分析;促销活动的有效性分析;顾客忠诚度的分析;购买推荐分析以及相关商品的参照促销等。
(4)在电信业中的应用
在电信市场激烈的竞争和迅速的业务扩张中,可以利用数据挖掘技术的帮助来理解商业行为、确定电信模式、捕捉盗用行为,更好地利用资源和提高服务质量。
现在已经应用数据挖掘技术的领域都是信息丰富、环境多变、尚无模型、需要知识帮助进行管理和决策的领域。如政府管理决策、商业经营、科学研究和企业决策支持等领域,都可以采用数据挖掘技术解决许多问题。数据挖掘从大量数据中提取出隐藏在数据之后的有用的信息,被越来越多的领域所采用,并取得了较好的效果,为人们的正确决策提供了很大的帮助。
5.数据挖掘的发展前景
近几年对于数据挖掘的研究发展很快,预计在未来若干年,研究还会形成更大的高潮,研究的总体发展方向可能会集中到以下几个方面:
(1)专业开发语言出现。研究专门用于知识发现的数据挖掘语言,并使其走向形式化和标准化。
(2)寻求数据挖掘过程中更优秀的可视化方法。实现在知识发现的过程中进行人机交互,图文数并茂,便于知识发现的过程能够很容易的被用户理解。
(3)研究基于网络环境下的数据挖掘技术(Web Mining),特别是在因特网上建立DMKD服务器,并且与数据库服务器配合,实现网络(远程)数据挖掘。
(4)加强对各种非结构化数据的开采(Data Mining for Audio & Video),如对图形数据、视频图像数据、声音数据乃至综合多媒体数据的开采,这些数据类型或者比较复杂,或者是结构比较独特。为了处理这些复杂的数据,就需要一些新的和更好的分析和建模方法,同时还会涉及到为处理这些复杂或独特数据所做的费时和复杂数据准备的一些工具和软件。
(5)挖掘软件的适用性更加灵活。如果一次挖掘不能实现相应的目标,可以进行交互式、动态性、分层挖掘等,即交互挖掘技术的发展。
(6)出现功能较强大的专用数据挖掘软件。就目前来看,将来的几个热点发展方向包括网站的数据挖掘、生物信息或基因的数据挖掘及其文本的数据挖掘等,这些领域具有独特的数据性质,需要由独特的专用软件来支持。
(7)空间数据挖掘(Spatial Data Mining)将有所突破。
(8)研究更有效的方法,使挖掘过程中的数据更安全。
参考文献:
[1]Jiawei Han, Micheline Kamber著.范明,孟小峰等译.数据挖掘一概念与技术[M].北京:机械工业出版社,2006.
[2]苏新宁,杨建林,江念南,栗湘.数据仓库和数据挖掘[M].北京:清华大学出版社,2006.