数据挖掘技术及在商业决策中的应用研究

来源 :商场现代化 | 被引量 : 0次 | 上传用户:WAIN154
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  
  一、引言
  
  随着信息时代的到来、INTERNET技术的发展,商业决策系统的功能变得越来越多样化。目前所使用的数据库技术无法将隐藏在数据背后的重要信息挖掘出来利用,所以如何迅速、准确、有效但适量地提供用户所需的信息,发现信息之间潜在的联系,支持管理决策就是数据挖掘要解决的课题。随着市场的开放、外资公司的介入,商业竞争逐步升级,群雄逐鹿已成定局。如何保持自身的核 心竞争力,使自己始终立于不败之地,是每个企业必须面对的问题。数据挖掘技术的应用无疑是提高企业竞争力的有效手段之一。本文主要讨论了数据挖掘技术的概念以及应用。
  
  二、什么是数据挖掘
  
  1.数据挖掘概述
  当今数据库的容量已经达到上万亿的水平(T)——1,000,000,000,000个字节。在这些大量数据的背后隐藏了很多具有决策意义的信息,那么怎么得到这些“知识”呢?也就是怎样通过一颗颗的树木了解到整个森林的情况?
  计算机科学对这个问题给出的最新回答就是:数据挖掘,数据挖掘(Data Mining,DM)是指从大量不完全的、有噪声的、模糊的、随机的数据中,提取隐含在其中的、有用的信息和知识的过程。大部分的人认为数据挖掘和数据库是等价的概念。数据挖掘是随着科学技术的迅速发展、数据库规模的日益扩大以及人们对数据库中潜在信息资源的需求而迅速发展起来的。它是数据库技术、人工智能、机器学习、统计分析、模糊逻辑等学科相结合的产物。数据挖掘的对象不仅是结构化数据库,也可以是半结构化的超文本文件,甚至是非结构化的多媒体。而数据仓库上面的数据挖掘,将是数据挖掘技术应用的主流。
  2.数据挖掘的流程
  数据挖掘一般由数据准备、挖掘操作、结果表达和解释三个主要阶段组成。在数据准备阶段应集成多个运作数据源中的数据,解决语义模糊性、处理遗漏数据、清洗脏数据。挖掘阶段是一个假设产生、合成、修正和验证传播的过程,也是上述三个阶段的核心。结果表达和解释阶段根据最终用户的决策目的把提取的有用信息正确地表达出来。
  (1)数据准备可分为:问题定义、数据选取、数据预处理和数据集成。在问题定义阶段,数据挖掘人员必须与领域专家和最终用户紧密合作,明确实际工作的要求,确定可用的学习算法;在数据选择阶段,确定需要分析的数据集合,即目标数据,以提高数据挖掘的质量;数据预处理是为了克服目前数据挖掘工具的局限性;数据集成是将多文件或多数据库运行环境中的数据进行合并处理,解决语义的模糊性,处理数据中的遗漏和清洗受污染的数据等。
  (2)在数据挖掘操作执行阶段,首先必须根据对问题的定义明确挖掘的任务和目的,比如分类、聚类、关联规则的挖掘或序列模式的挖掘等。在确定了挖掘任务之后,就要决定选用什么挖掘算法。在选择挖掘算法时应考虑:一是不同的数据有各自不同的特点,应该选用不同的挖掘算法;二是用户或实际系统的要求。
  (3)先对提取的信息进行分析,然后通过决策支持工具提交给决策者。该阶段不仅要把结果表达出来,而且数据挖掘系统会采用解释和推理机制,将这些知识直接提供给决策者,或提供给领域专家,以修正已有知识库,供系统共享。如果不满意,需要重复以上知识发现的过程。
  
  三、数据仓库
  
  1.数据仓库概述
  提到数据挖掘就要介绍一下数据仓库技术。建立数据仓库的目的,是把企业的内部数据和外部数据进行有效的集成,为企业的各层决策、分析人员使用。企业内部数据是指通过业务系统收集到的数据,这些数据可能分布在不同的硬件、数据库、网络环境中,为不同的业务部门服务。比如对一个制造业用户来说,可能有生产数据、销售数据、财务数据、市场数据、人事数据等等,所有这些数据从结构上看,是相对独立的,是不利于企业决策者进行全面分析和查询的。如果我们针对决策者的需求,对这引起数据进行结构上的重组,按更方便决策分析的角度去设计,并且充分考虑今后的扩展性与外部数据的接口,会对企业的宝贵资源——数据,实现真正的信息价值。
  2.数据仓库系统体系结构
  (1)数据源:是数据仓库系统的基础,是整个系统的数据源泉。通常包括企业内部信息和外部信息。内部信息包括存放于RDBMS中的各种业务处理数据和各类文档数据。外部信息包括各类法律法规、市场信息和竞争对手的信息等。
  (2)数据的存储与管理:是整个数据仓库系统的核心。数据仓库的真正关键是数据的存储和管理。数据仓库的组织管理方式决定了它有别于传统数据库,同时也决定了其对外部数据的表现形式。要决定采用什么产品和技术来建立数据仓库的核心,则需要从数据仓库的技术特点着手分析。针对现有各业务系统的数据,进行抽取、清理,并有效集成,按照主题进行组织。数据仓库按照数据的覆盖范围可以分为企业级数据仓库和部门级数据仓库(通常称为数据集市)。
  (3)OLAP服务器:对分析需要的数据进行有效集成,按多维模型予以组织,以便进行多角度、多层次的分析,并发现趋势。其具体实现可以分为:ROLAP、MOLAP和HOLAP。ROLAP基本数据和聚合数据均存放在RDBMS之中;MOLAP基本数据和聚合数据均存放于多维数据库中;HOLAP基本数据存放于RDBMS之中,聚合数据存放于多维数据库中。
  (4)前端工具:主要包括各种报表工具、查询工具、数据分析工具、数据挖掘工具以及各种基于数据仓库或数据集市的应用开发工具。其中数据分析工具主要针对OLAP服务器,报表工具、数据挖掘工具主要针对数据仓库。
  
  四、数据挖掘技术在商业决策中的应用
  
  在市场经济的激烈竞争中,企业必须把业务经营同市场需求联系起来,在此基础上做出科学、正确的决策,以求生存。数据仓库可以建立一种体系化的数据存贮环境,将分析决策所需的大量数据从传统的操作环境中分离出来,使分散的、不一致的操作数据转换成集成的、统一的信息,企业内不同单位的成员都可以在此单一的环境之下,通过运用其中的数据与信息,发现全新的视野和新的问题、新的分析与想法,进而发展出制度化的决策系统,并获取更多经营效益。
  本文中所涉及到的图表、注解、公式等内容请以PDF格式阅读原文。
其他文献
广东有了“空中的士”和“空中私家车”,今后旅客只要付费,就可以让公务机专门为自己飞行,何时起飞、飞往何处等均由旅客“话事”。这是由深航与香港亚洲公务航空、北京国民信托
摘 要:财产保全制度在我国目前经济形势下,对防止诉争当事人恶意转移、藏匿、毁损或挥霍在其下占有争议财产或有关财产发挥着重要作用。我国诉讼财产保全制度规定过于简单,实践中没有统一标准,在司法及实践中都存在一些欠缺,其在一些细节上仍有待改进。本文从财产保全的担保、财产保全期限、以及财产保全执行几个方面进行了阐述,以述对我国民事诉讼财产保全制度进行完善。  关键词:财产保全;适用;执行;担保  一、关于
根据省交通厅《关于开展增创广东省交通行业新优势调研工作的通知》精神和市委、市政府的要求,我委组织了精干人员,分水运管理、运政管理和企业管理三个小组,深入基层各单位
养成良好的学习习惯的重要性为古今教育界所认同,当前教育界提出的“好的早期教育=好习惯与思维=好未来”理念,对于青少年,需要养成好的生活习惯,对于中学生尤其是高中生,具有重大
地理学科是一门常识性的学科。如何够在地理的课堂教学中活跃课堂气氛,让地理的课堂教学达到最佳的教学效果呢?本次研究就针对这一问题谈几点个人的想法。
多媒体的出现为我们的教学注入了新鲜的血液,为教师的教学提供了更先进的教学工具,它改变了传统教学的单调死板的方式,给学生的学习注入了新的活力。
房地产投资决策阶段是房地产整个项目投资过程中最重要的一环,关系到整个投资计划顺利开展。本文阐述了房地产开发投资决策阶段所面对的风险,并提出了规避投资决策风险的对策建
[摘要] 经济全球化是世界经济发展的趋势,特别是中国加入WTO以后,中国企业和国际市场更为紧密地联系在一起。对于中小企业而言,经济全球化既是机遇也是挑战。本文通过分析中小企业自身存在的一些问题,提出了中小企业要在经济全球化这个背景下发展得更好,创新是其惟一出路。  [关键词] 经济全球化中小企业创新
教学有法,教无定法。师者“传道、授业、解惑”也,授之以渔,教给学生学习方法,引导学生自己去学。教师应当面向全体学生,激发他们的兴趣,灵活运用教学方法在课堂上,除了老师提问外,老
苏霍姆林斯基说:“教师课讲得带有美育色彩,这是一把精致的钥匙,它不仅能进到记忆的大门,而且能人到大脑皮层最隐蔽的角落。”那么,一堂语文课如何称之为好呢?我们对于好的评判又是