论文部分内容阅读
我们现在已经生活在一个网络化的时代,通信、计算机和网络技术正改变着整个人类和社会。大量信息在给人们带来方便的同时也带来了一些问题:第一是信息过量,难以消化;第二是信息真假难以辨识;第三是信息安全难以保证;第四是信息形式不一致,难以统一处理。人们开始考虑:“如何才能不被信息淹没,而是从中及时发现有用的知识、提高信息利用率?” 面对这一挑战,数据挖掘(Data Mining)和知识发现(Knowledge Discovery)技术应运而生。随着数据库技术的迅速发展以及数据库管理系统的广泛应用,积累的数据越来越多。激增的数据背后隐藏着许多重要的信息,人们希望能够对其进行更高层次的分析,以便更好地利用这些数据。目前的数据库系统可以高效地实现数据的录入、查询、统计等功能,但无法发现数据中存在的关系或规则,无法根据现有的数据预测未来的发展趋势。数据挖掘(Data Mining)是人们长期对数据库技术进行研究和开发的结果。数据挖掘技术是新兴的研究领域之一,它结合了数据库技术、人工智能(AI)和统计分析等多项技术,其主要特点是对商业数据库中的大量业务数据进行抽取、转换、分析和其他模型化处理,从中提取辅助商业决策的关键性数据。数据挖掘使数据库技术进入了一个更高级的阶段,它不仅能对过去的数据进行查询和遍历,并且能够找出过去数据之间的潜在联系,从而促进信息的传递。数据挖掘技术的运用能从大量的、不完全的、有噪声的、模糊的、随机的应用数据中提取出隐藏于数据背后的信息和知识。 决策支持系统(Decision Support System)是在管理信息系统的基础上发展起来的,目前开发的综合DSS是以数据仓库(DataWarehouse)技术为基础,以联机分析处理(OLAP)和数据挖掘(DataMining)工具为手段进行实施的一整套解决方案, 而数据挖掘是决策支持工具中的重要组成部分。数据仓库直接为联机分析处理和数据挖掘提供数据源。在数据仓库基础上挖掘的知识通常以图表、可视化、类自然语言等形式表示出来,但所挖掘的知识并不都是有意义的,必须进行评价、筛选和验证,把有意义的知识放到知识库中,随着时间的推移将积累更多的知识。知识库根据挖掘的知识类型包括总结性知识、关联性知识、分类模型知识、聚类模型知识,这些知识通过相应挖掘算法得到。本论文是在长春康达智控公司软件研发部完成的。在公司期间参与了通化钢铁集团公司决策支持系统(TGDSS1.0)的研发工作。该软件系统分为联机分析处理(OLAP)和数据挖掘(DM)两个子系统,OLAP子系统的主要功能是通过IE(微软的INTERNET EXPLORE)或NETSCAPE等浏览器随时随地查阅商业数据,在线创建各类数据报表,及时发布和传递各种数据文件;DM子系统主要分析商业数据为高层决策提供及时而有价值的信息,其功能包括对底层商业数据预处理、挖掘模型建立、知识可视化呈现等。整个系统集成了数据挖掘(DM)、联机分析处理(OLAP)、可视化、WEB等技术。整个软件系统分四个层次体系,包括数据仓服务器层、数据挖掘服务器层、WEB服务器层和用户层等四个层次的体系结构。数据挖掘子系统主要基于微软的数据挖掘核心技术,以SQL Server Analysis Services为数据挖掘的服务平台,分别针对底层的关系型数据库和数据仓库中的多维数据立方体两种数据<WP=90>源建立可视化的挖掘模型,并将得到的挖掘模型以两种可视化形式展现给客户。本论文主要阐述与数据挖掘子系统相关的研究内容。针对通化钢铁集团公司决策支持系统(TGDSS1.0)中的数据挖掘子系统,主要做了以下方面的工作:首先阐述了数据挖掘的一些相关概念、模型结构、挖掘算法等内容,对数据挖掘的模型和算法等理论作了深入的研究,针对实际的业务需求将决策树算法应用到数据挖掘分类模型中;将可视化技术引入数据挖掘领域,从数据预处理、挖掘模型建立、模型验证与评估等整个数据挖掘流程中抽象出数据挖掘模型可视化的体系结构,并将其应用于数据挖掘子系统的研发过程中。其次根据数据挖掘模型可视化建立过程,针对关系型数据源开发客户端数据挖掘可视化分析工具---RDDMT(Relation Database Date Ming Tool)。在该挖掘工具的实现过程中,主要依托于Microsoft SQL Analysis Services 提供的数据挖掘服务,并集成多种可视化技术实现数据预处理、挖掘模型建立、模型展现等系统功能。最后基于多维数据立方体数据源开发了数据挖掘子系统---MDDMT(Muti-dimension Data cube Data Mining Tool)。该挖掘工具以Microsoft SQL Analysis Services 作为数据仓服务器,利用RDDMT预处理过的关系型数据建立多维数据立方体。第三方客户端数据挖掘分析工具DBMiner 2.0通过Analysis Services提供的联机数据分析服务接口(OLE DB FOR OLAP)与多维数据立方体数据源建立连接通道,对数仓库中的多维数据立方体建立可视化的挖掘模型。在系统的实现过程中,通过DBMiner可以方便地对多维数据立方体进行联机分析处理和挖掘模型的可视化创建过程。在本论文中,主要提出了数据挖掘模型可视化的体系结构等;并严格依据数据挖掘系统的开发规程,针对通用的业务模型,完成了基于关系型数据和?