论文部分内容阅读
摘 要:数据挖掘已经引起了社会各界特别是信息产业界的极大关注,其主要原因是在统计学和数据库知识高速发展的今天,以前积累了大量数据,迫切需要将这些数据转换成有用的信息和知识。通过数据挖掘技术获取的信息和知识可以广泛用于各个领域,包括商务管理、生产控制、市場分析、工程设计和科学探索等。
关键词:数据挖掘;直接数据挖掘;间接数据挖掘
一、数据挖掘的定义
数据挖掘,数据挖掘的含义。数据挖掘又称为数据库中的知识发现,就是从大量数据中获取有效的、新颖的、潜在有用的、最终可理解的模式的非平凡过程,简单地说,数据挖掘就是从大量数据中提取或“挖掘”知识。数据的分析是数据挖掘的一项技术,数据的分析有频数统计分析、领悟式分析、聚类分析、相关关系分析、人工神经网络原理分析等方法。数据挖掘中聚类分析是其中重要的分析方法之一。数据挖掘是数据库内信息的知识发现,是从数据库的海量资料中提取或挖掘用户需要的知识信息,而这些知识信息有规则、概念、模式和规律等多种表现形式.在数据研究的过程中,聚类分析方法能够有效剔除在分类的过程中所混入的主观因素,准确而客观的将研究对象的信息表现在用户面前,并完成信息内部客观规律的发掘任务。在人工智能领域,习惯上又称为数据库中知识发现(Knowledge Discovery in Database,简称为KDD),也有人把数据挖掘视为数据库中知识发现过程的一个基本步骤。换言之,就是从存放在数据库、数据仓库或其他信息库中大量的数据中获取有效的、新颖的、潜在有用的、最终可理解的模式的非平凡过程。
二、数据挖掘的关键步骤
1.挖掘
把潜在的不明确数据关系的数据提取并转化为数学问题。这一步的结果只是表明数据之间有关系,但是具体是什么关系仍然不明确。
2.建模
把不明确的数据关系通过数学建模过程转化为明显的数据关系,即把数据之间的内在变化规律由数学符号与数学结构表示出来。
三、数据挖掘分类
1.直接数据挖掘
目标是利用可用的数据建立一个模型,这个模型对剩余的数据,即一个特定的变量进行描述。
2.间接数据挖掘
目标中没有选出某一具体的变量,而是在所有的变量中建立起某种关系。
四、数据挖掘技术实现
在技术上可以根据它的工作过程分为:数据的抽取、数据的存储和管理、数据的展现等关键技术。
1.数据的抽取
就是数据进入仓库的入口。由于数据仓库是一个独立的数据环境,它需要通过抽取过程将数据从联机事务处理系统、外部数据源、脱机的数据存储介质中导入数据仓库。数据抽取在技术上主要涉及互连、复制、增量、转换、调度和监控等几个方面的处理。
2.数据的存储和管理
数据仓库的组织管理方式决定了它有别于传统数据库的特性,也决定了其对外部数据的表现形式。数据仓库管理所涉及的数据量比传统事务处理大得多,且随时间的推移而快速累积。在数据仓库的数据存储和管理中需要解决的是如何管理大量的数据、如何并行处理大量的数据、如何优化查询等。
3.数据的展现
主要的方式有:查询:实现预定义查询、动态查询、OLAP查询与决策支持智能查询;报表:产生关系数据表格、复杂表格、OLAP表格、报告以及各种综合报表;可视化:用易于理解的点线图、直方图、饼图、网状图、交互式可视化、动态模拟、计算机动画技术表现复杂数据及其相互关系;统计:进行平均值、最大值、最小值、期望、方差、汇总、排序等各种统计分析;挖掘:利用数据挖掘等方法,从数据中得到关于数据关系和模式的识。
五、数据挖掘与数据仓库融合发展
数据挖掘和数据仓库的协同工作,一方面可以迎合和简化数据挖掘过程中的重要步骤,提高数据挖掘的效率和能力,确保数据挖掘中数据来源的广泛性和完整性;另一方面,数据挖掘技术已经成为数据仓库应用中极为重要和相对独立的方面和工具。
数据挖掘和数据仓库是融合与互动发展的,具有广泛的应用空间和丰富的学术价值。简而言之,掌握数据挖掘和数据仓库技术可以使我们从数据库的“奴隶”变成数据库的“主人”。
六、数据挖掘在各领域中的应用及发展前景
当前数据挖掘应用主要集中在电信、零售、农业、网络日志、银行、电力、生物、天体、化工、医药等方面。专家也指出,数据挖掘会成为未来十年内重要的技术之一。而数据挖掘,也已经开始成为一门独立的专业学科。
具体发展趋势和应用方向主要有:对知识发现方法的研究进一步发展,如对Bayes和Boosting方法的研究和提高;商业工具软件不断产生和完善,注重建立解决问题的整体系统。
数据挖掘的发展应是挖掘工具在先进理论指导下的改进,而就现有情况而言,还有至少二十年的发展空间。
目前,联机处理技术与数据挖掘是信息系统领域内的研究重点,OLAP作为一种多维分析的工具,可以为用户提供多层面、多角度的逻辑视图,按照用户所提出问题进行假设,分析,并将呈现给用户。
数据挖掘是在海量的数据集合中寻找模式的决策支持过程,它从大量数据中发现潜在的模式并作出预测性分析,是现有的最新的技术和统计学等成熟技术在特定系统中的具体的应用。
同时,数据挖掘与OLAP都属于分析型工具,从某种角度上说OLAP联机分析方法也是一种数据挖掘方法。但二者之间有着明显的区别,数据挖掘的分析过程是全自动的,用户可以不必提出确切的问题,只需工具去挖掘隐藏的模式并预测将来的趋势,这样有利于发现未知的事实;而OLAP更多地依靠用户输入问题和假设,由于用户先入为主的参与问题和假设的范围,从而会影响最后的结论。从对数据分析的深度角度来讲,它比较浅显,数据挖掘则可以发现OLAP 所不能发现的更为复杂的信息。
数据挖掘存在的主要问题是实现很困难,因为数据库或数据仓库中存在大量数据和每个数据又有很多属性,由于挖掘分析过程是全自动的,用户仅仅指定挖掘的任务,而不提供搜索线索,这样导致搜索的空间过大,生成相当多的外模式,其中绝大部分有可能是无意义的是用户不感兴趣的模式。OLAP分析虽然可给用户提供在不同角度、不同抽象级别的视图,但是由于对用户的需求了解调研的不够全面,视图中缺乏所应包含的维度,从不同的视图得到的结果可能并不相同,容易产生错误引导,用户需做大量的数据打捞工作才能够猜出正确的结果。
实际上数据挖掘的各个方法之间,数据挖掘和联机分析处理之间都有着密不可分的关系,有些是可以由OLAP 来展现或分析的,而数据挖掘的结果又可以指导生成OLAP多维模型。
从上述分析可以看出,数据挖掘技术由于内在技术方面和适用范围的不同,在实际决策分析中必须协调配合使用才能发挥最好的作用。
参考文献
[1]廖芹,郝志峰,陈志宏.数据挖掘与数学建模[M].北京:国防工业出版社,2010.
[2]希赛IT发展研究中心.SQLSEVER数据库系统开发[M].北京:电子工业出版社,2009.
[3]廖里 数据挖掘和数据仓库及其在电信业中的应用 2000年 《重庆邮电学院学报》
[4]石磊 OLAP与数据挖掘一体化模型的分析与讨论 2000年 《小型微型计算机系统》
[5]竖 苎 数据仓库的建设与数据挖掘技术浅析 2003年第3期《现代信息技术》
[6]宋中山 数据仓库技术研究与应用 2003年 《计算机工程与应用》
关键词:数据挖掘;直接数据挖掘;间接数据挖掘
一、数据挖掘的定义
数据挖掘,数据挖掘的含义。数据挖掘又称为数据库中的知识发现,就是从大量数据中获取有效的、新颖的、潜在有用的、最终可理解的模式的非平凡过程,简单地说,数据挖掘就是从大量数据中提取或“挖掘”知识。数据的分析是数据挖掘的一项技术,数据的分析有频数统计分析、领悟式分析、聚类分析、相关关系分析、人工神经网络原理分析等方法。数据挖掘中聚类分析是其中重要的分析方法之一。数据挖掘是数据库内信息的知识发现,是从数据库的海量资料中提取或挖掘用户需要的知识信息,而这些知识信息有规则、概念、模式和规律等多种表现形式.在数据研究的过程中,聚类分析方法能够有效剔除在分类的过程中所混入的主观因素,准确而客观的将研究对象的信息表现在用户面前,并完成信息内部客观规律的发掘任务。在人工智能领域,习惯上又称为数据库中知识发现(Knowledge Discovery in Database,简称为KDD),也有人把数据挖掘视为数据库中知识发现过程的一个基本步骤。换言之,就是从存放在数据库、数据仓库或其他信息库中大量的数据中获取有效的、新颖的、潜在有用的、最终可理解的模式的非平凡过程。
二、数据挖掘的关键步骤
1.挖掘
把潜在的不明确数据关系的数据提取并转化为数学问题。这一步的结果只是表明数据之间有关系,但是具体是什么关系仍然不明确。
2.建模
把不明确的数据关系通过数学建模过程转化为明显的数据关系,即把数据之间的内在变化规律由数学符号与数学结构表示出来。
三、数据挖掘分类
1.直接数据挖掘
目标是利用可用的数据建立一个模型,这个模型对剩余的数据,即一个特定的变量进行描述。
2.间接数据挖掘
目标中没有选出某一具体的变量,而是在所有的变量中建立起某种关系。
四、数据挖掘技术实现
在技术上可以根据它的工作过程分为:数据的抽取、数据的存储和管理、数据的展现等关键技术。
1.数据的抽取
就是数据进入仓库的入口。由于数据仓库是一个独立的数据环境,它需要通过抽取过程将数据从联机事务处理系统、外部数据源、脱机的数据存储介质中导入数据仓库。数据抽取在技术上主要涉及互连、复制、增量、转换、调度和监控等几个方面的处理。
2.数据的存储和管理
数据仓库的组织管理方式决定了它有别于传统数据库的特性,也决定了其对外部数据的表现形式。数据仓库管理所涉及的数据量比传统事务处理大得多,且随时间的推移而快速累积。在数据仓库的数据存储和管理中需要解决的是如何管理大量的数据、如何并行处理大量的数据、如何优化查询等。
3.数据的展现
主要的方式有:查询:实现预定义查询、动态查询、OLAP查询与决策支持智能查询;报表:产生关系数据表格、复杂表格、OLAP表格、报告以及各种综合报表;可视化:用易于理解的点线图、直方图、饼图、网状图、交互式可视化、动态模拟、计算机动画技术表现复杂数据及其相互关系;统计:进行平均值、最大值、最小值、期望、方差、汇总、排序等各种统计分析;挖掘:利用数据挖掘等方法,从数据中得到关于数据关系和模式的识。
五、数据挖掘与数据仓库融合发展
数据挖掘和数据仓库的协同工作,一方面可以迎合和简化数据挖掘过程中的重要步骤,提高数据挖掘的效率和能力,确保数据挖掘中数据来源的广泛性和完整性;另一方面,数据挖掘技术已经成为数据仓库应用中极为重要和相对独立的方面和工具。
数据挖掘和数据仓库是融合与互动发展的,具有广泛的应用空间和丰富的学术价值。简而言之,掌握数据挖掘和数据仓库技术可以使我们从数据库的“奴隶”变成数据库的“主人”。
六、数据挖掘在各领域中的应用及发展前景
当前数据挖掘应用主要集中在电信、零售、农业、网络日志、银行、电力、生物、天体、化工、医药等方面。专家也指出,数据挖掘会成为未来十年内重要的技术之一。而数据挖掘,也已经开始成为一门独立的专业学科。
具体发展趋势和应用方向主要有:对知识发现方法的研究进一步发展,如对Bayes和Boosting方法的研究和提高;商业工具软件不断产生和完善,注重建立解决问题的整体系统。
数据挖掘的发展应是挖掘工具在先进理论指导下的改进,而就现有情况而言,还有至少二十年的发展空间。
目前,联机处理技术与数据挖掘是信息系统领域内的研究重点,OLAP作为一种多维分析的工具,可以为用户提供多层面、多角度的逻辑视图,按照用户所提出问题进行假设,分析,并将呈现给用户。
数据挖掘是在海量的数据集合中寻找模式的决策支持过程,它从大量数据中发现潜在的模式并作出预测性分析,是现有的最新的技术和统计学等成熟技术在特定系统中的具体的应用。
同时,数据挖掘与OLAP都属于分析型工具,从某种角度上说OLAP联机分析方法也是一种数据挖掘方法。但二者之间有着明显的区别,数据挖掘的分析过程是全自动的,用户可以不必提出确切的问题,只需工具去挖掘隐藏的模式并预测将来的趋势,这样有利于发现未知的事实;而OLAP更多地依靠用户输入问题和假设,由于用户先入为主的参与问题和假设的范围,从而会影响最后的结论。从对数据分析的深度角度来讲,它比较浅显,数据挖掘则可以发现OLAP 所不能发现的更为复杂的信息。
数据挖掘存在的主要问题是实现很困难,因为数据库或数据仓库中存在大量数据和每个数据又有很多属性,由于挖掘分析过程是全自动的,用户仅仅指定挖掘的任务,而不提供搜索线索,这样导致搜索的空间过大,生成相当多的外模式,其中绝大部分有可能是无意义的是用户不感兴趣的模式。OLAP分析虽然可给用户提供在不同角度、不同抽象级别的视图,但是由于对用户的需求了解调研的不够全面,视图中缺乏所应包含的维度,从不同的视图得到的结果可能并不相同,容易产生错误引导,用户需做大量的数据打捞工作才能够猜出正确的结果。
实际上数据挖掘的各个方法之间,数据挖掘和联机分析处理之间都有着密不可分的关系,有些是可以由OLAP 来展现或分析的,而数据挖掘的结果又可以指导生成OLAP多维模型。
从上述分析可以看出,数据挖掘技术由于内在技术方面和适用范围的不同,在实际决策分析中必须协调配合使用才能发挥最好的作用。
参考文献
[1]廖芹,郝志峰,陈志宏.数据挖掘与数学建模[M].北京:国防工业出版社,2010.
[2]希赛IT发展研究中心.SQLSEVER数据库系统开发[M].北京:电子工业出版社,2009.
[3]廖里 数据挖掘和数据仓库及其在电信业中的应用 2000年 《重庆邮电学院学报》
[4]石磊 OLAP与数据挖掘一体化模型的分析与讨论 2000年 《小型微型计算机系统》
[5]竖 苎 数据仓库的建设与数据挖掘技术浅析 2003年第3期《现代信息技术》
[6]宋中山 数据仓库技术研究与应用 2003年 《计算机工程与应用》