论文部分内容阅读
一、引言
随着信息时代的到来、INTERNET技术的发展,商业决策系统的功能变得越来越多样化。目前所使用的数据库技术无法将隐藏在数据背后的重要信息挖掘出来利用,所以如何迅速、准确、有效但适量地提供用户所需的信息,发现信息之间潜在的联系,支持管理决策就是数据挖掘要解决的课题。随着市场的开放、外资公司的介入,商业竞争逐步升级,群雄逐鹿已成定局。如何保持自身的核 心竞争力,使自己始终立于不败之地,是每个企业必须面对的问题。数据挖掘技术的应用无疑是提高企业竞争力的有效手段之一。本文主要讨论了数据挖掘技术的概念以及应用。
二、什么是数据挖掘
1.数据挖掘概述
当今数据库的容量已经达到上万亿的水平(T)——1,000,000,000,000个字节。在这些大量数据的背后隐藏了很多具有决策意义的信息,那么怎么得到这些“知识”呢?也就是怎样通过一颗颗的树木了解到整个森林的情况?
计算机科学对这个问题给出的最新回答就是:数据挖掘,数据挖掘(Data Mining,DM)是指从大量不完全的、有噪声的、模糊的、随机的数据中,提取隐含在其中的、有用的信息和知识的过程。大部分的人认为数据挖掘和数据库是等价的概念。数据挖掘是随着科学技术的迅速发展、数据库规模的日益扩大以及人们对数据库中潜在信息资源的需求而迅速发展起来的。它是数据库技术、人工智能、机器学习、统计分析、模糊逻辑等学科相结合的产物。数据挖掘的对象不仅是结构化数据库,也可以是半结构化的超文本文件,甚至是非结构化的多媒体。而数据仓库上面的数据挖掘,将是数据挖掘技术应用的主流。
2.数据挖掘的流程
数据挖掘一般由数据准备、挖掘操作、结果表达和解释三个主要阶段组成。在数据准备阶段应集成多个运作数据源中的数据,解决语义模糊性、处理遗漏数据、清洗脏数据。挖掘阶段是一个假设产生、合成、修正和验证传播的过程,也是上述三个阶段的核心。结果表达和解释阶段根据最终用户的决策目的把提取的有用信息正确地表达出来。
(1)数据准备可分为:问题定义、数据选取、数据预处理和数据集成。在问题定义阶段,数据挖掘人员必须与领域专家和最终用户紧密合作,明确实际工作的要求,确定可用的学习算法;在数据选择阶段,确定需要分析的数据集合,即目标数据,以提高数据挖掘的质量;数据预处理是为了克服目前数据挖掘工具的局限性;数据集成是将多文件或多数据库运行环境中的数据进行合并处理,解决语义的模糊性,处理数据中的遗漏和清洗受污染的数据等。
(2)在数据挖掘操作执行阶段,首先必须根据对问题的定义明确挖掘的任务和目的,比如分类、聚类、关联规则的挖掘或序列模式的挖掘等。在确定了挖掘任务之后,就要决定选用什么挖掘算法。在选择挖掘算法时应考虑:一是不同的数据有各自不同的特点,应该选用不同的挖掘算法;二是用户或实际系统的要求。
(3)先对提取的信息进行分析,然后通过决策支持工具提交给决策者。该阶段不仅要把结果表达出来,而且数据挖掘系统会采用解释和推理机制,将这些知识直接提供给决策者,或提供给领域专家,以修正已有知识库,供系统共享。如果不满意,需要重复以上知识发现的过程。
三、数据仓库
1.数据仓库概述
提到数据挖掘就要介绍一下数据仓库技术。建立数据仓库的目的,是把企业的内部数据和外部数据进行有效的集成,为企业的各层决策、分析人员使用。企业内部数据是指通过业务系统收集到的数据,这些数据可能分布在不同的硬件、数据库、网络环境中,为不同的业务部门服务。比如对一个制造业用户来说,可能有生产数据、销售数据、财务数据、市场数据、人事数据等等,所有这些数据从结构上看,是相对独立的,是不利于企业决策者进行全面分析和查询的。如果我们针对决策者的需求,对这引起数据进行结构上的重组,按更方便决策分析的角度去设计,并且充分考虑今后的扩展性与外部数据的接口,会对企业的宝贵资源——数据,实现真正的信息价值。
2.数据仓库系统体系结构
(1)数据源:是数据仓库系统的基础,是整个系统的数据源泉。通常包括企业内部信息和外部信息。内部信息包括存放于RDBMS中的各种业务处理数据和各类文档数据。外部信息包括各类法律法规、市场信息和竞争对手的信息等。
(2)数据的存储与管理:是整个数据仓库系统的核心。数据仓库的真正关键是数据的存储和管理。数据仓库的组织管理方式决定了它有别于传统数据库,同时也决定了其对外部数据的表现形式。要决定采用什么产品和技术来建立数据仓库的核心,则需要从数据仓库的技术特点着手分析。针对现有各业务系统的数据,进行抽取、清理,并有效集成,按照主题进行组织。数据仓库按照数据的覆盖范围可以分为企业级数据仓库和部门级数据仓库(通常称为数据集市)。
(3)OLAP服务器:对分析需要的数据进行有效集成,按多维模型予以组织,以便进行多角度、多层次的分析,并发现趋势。其具体实现可以分为:ROLAP、MOLAP和HOLAP。ROLAP基本数据和聚合数据均存放在RDBMS之中;MOLAP基本数据和聚合数据均存放于多维数据库中;HOLAP基本数据存放于RDBMS之中,聚合数据存放于多维数据库中。
(4)前端工具:主要包括各种报表工具、查询工具、数据分析工具、数据挖掘工具以及各种基于数据仓库或数据集市的应用开发工具。其中数据分析工具主要针对OLAP服务器,报表工具、数据挖掘工具主要针对数据仓库。
四、数据挖掘技术在商业决策中的应用
在市场经济的激烈竞争中,企业必须把业务经营同市场需求联系起来,在此基础上做出科学、正确的决策,以求生存。数据仓库可以建立一种体系化的数据存贮环境,将分析决策所需的大量数据从传统的操作环境中分离出来,使分散的、不一致的操作数据转换成集成的、统一的信息,企业内不同单位的成员都可以在此单一的环境之下,通过运用其中的数据与信息,发现全新的视野和新的问题、新的分析与想法,进而发展出制度化的决策系统,并获取更多经营效益。
本文中所涉及到的图表、注解、公式等内容请以PDF格式阅读原文。