论文部分内容阅读
由于计算机数据采集工具及关系数据库技术的发展,目前各个行业都存储了大量的数据。传统的数据分析手段难以应付大量的数据,从而导致越来越严重的数据灾难。关系数据库提供的简单查询和报表生成功能,只能获得数据的表层信息,而不能获得数据属性的内在关系和隐含的信息,即淹没了包含的知识,造成了资源的浪费。数据仓库、联机分析处理和数据挖掘技术的发展为解决这一问题提供了有效途径。 聚类分析作为数据挖掘领域的一个重要研究课题正在迅速发展,它在许多实际应用中都发挥着重要作用。本文以威尔玛超市的销售数据为应用背景,在前人对聚类分析研究的基础上,设计并实现了一个基于数据仓库和OLAP技术的聚类挖掘系统。论文的主要工作如下: 第一,介绍了论文的研究背景,包括聚类分析的发展现状及进一步的研究方向,同时介绍了聚类分析的概念、聚类分析方法的分类以及本系统集成的主要聚类算法。 第二,介绍了威尔玛超市数据仓库和OLAP立方体的构建过程,这部分包含了需求分析、设计、建立等步骤,完成了威尔玛超市数据仓库和OLAP立方体的设计与实现,这是论文研究的基础。 第三,详细阐述了基于数据仓库和OLAP技术的聚类挖掘系统的设计与实现,这部分是全文的重点。该系统包括了底层的数据仓库、联机分析平台和聚类分析子系统。这里重点讨论的是聚类挖掘子系统的设计与实现。聚类分析子系统的设计主要包括数据预处理模块、聚类分析器以及聚类分析结果反馈模块的设计。我们首先对数据预处理模块进行了分析讨论,并实现了几种比较常用的数据变换方法用来对原始数据进行变换处理;然后采用Delphi的COM技术来实现组件化的聚类分析器;聚类分析结果反馈模块的设计,主要是对聚类分析的可视化进行研究,结合实际应用实现了聚类过程的可视化和几种聚类结果的可视化表示方式。接下来对威尔玛超市数据进行聚类挖掘的应用研究,并给出了一些聚类分析实例,结果表明该系统在威尔玛超市的实际应用中取得了良好的效果。 最后对全文的工作进行总结,并且对下一步工作进行了展望。