基于数据仓库和OLAP技术的聚类挖掘系统的设计与实现

来源 :大连理工大学 | 被引量 : 0次 | 上传用户:KenBlove
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
由于计算机数据采集工具及关系数据库技术的发展,目前各个行业都存储了大量的数据。传统的数据分析手段难以应付大量的数据,从而导致越来越严重的数据灾难。关系数据库提供的简单查询和报表生成功能,只能获得数据的表层信息,而不能获得数据属性的内在关系和隐含的信息,即淹没了包含的知识,造成了资源的浪费。数据仓库、联机分析处理和数据挖掘技术的发展为解决这一问题提供了有效途径。 聚类分析作为数据挖掘领域的一个重要研究课题正在迅速发展,它在许多实际应用中都发挥着重要作用。本文以威尔玛超市的销售数据为应用背景,在前人对聚类分析研究的基础上,设计并实现了一个基于数据仓库和OLAP技术的聚类挖掘系统。论文的主要工作如下: 第一,介绍了论文的研究背景,包括聚类分析的发展现状及进一步的研究方向,同时介绍了聚类分析的概念、聚类分析方法的分类以及本系统集成的主要聚类算法。 第二,介绍了威尔玛超市数据仓库和OLAP立方体的构建过程,这部分包含了需求分析、设计、建立等步骤,完成了威尔玛超市数据仓库和OLAP立方体的设计与实现,这是论文研究的基础。 第三,详细阐述了基于数据仓库和OLAP技术的聚类挖掘系统的设计与实现,这部分是全文的重点。该系统包括了底层的数据仓库、联机分析平台和聚类分析子系统。这里重点讨论的是聚类挖掘子系统的设计与实现。聚类分析子系统的设计主要包括数据预处理模块、聚类分析器以及聚类分析结果反馈模块的设计。我们首先对数据预处理模块进行了分析讨论,并实现了几种比较常用的数据变换方法用来对原始数据进行变换处理;然后采用Delphi的COM技术来实现组件化的聚类分析器;聚类分析结果反馈模块的设计,主要是对聚类分析的可视化进行研究,结合实际应用实现了聚类过程的可视化和几种聚类结果的可视化表示方式。接下来对威尔玛超市数据进行聚类挖掘的应用研究,并给出了一些聚类分析实例,结果表明该系统在威尔玛超市的实际应用中取得了良好的效果。 最后对全文的工作进行总结,并且对下一步工作进行了展望。
其他文献
多媒体会议克服了传统的通信工具不具备的面对面的沟通效果,又节省了时间和费用,提高了开会效率,所以得到了广泛的应用。目前的多媒体会议系统无论是基于电路交换网的H.320
科学计算可视化是20世纪80年代发展起来的一门新学科,它运用计算机图形学和图像处理技术,将计算过程中及计算结果的数据转化为图形图像的形式在屏幕上显示并进行交互处理。在
数据库中知识发现(Knowledge Discovery in Databases,简称KDD)是近年来人工智能、数据库应用等领域的研究热点。目前,KDD的研究涵盖了多个领域的多种知识发现方法,已经能够发现
UML是面向对象开发中一种可视化建模语言,已经成为事实上的面向对象建模标准。虽然表达丰富,但UML不是形式化的建模语言,其图形化的符号经常缺乏精确的语义,这使得对UML进行形式
本文对曲面造型中散乱数据插值曲面问题进行了研究。构造散乱空间数据插值曲面技术在CAD、计算机图形学、气象和勘探等各类科学研究和工程设计中有广泛的应用。 由于工程
JFFS2是为使用闪速存储设备的嵌入式系统专门设计的一种日志式文件系统。作为一种基于日志结构的文件系统,JFFS2采用了新的存储方式,可支持耗损平衡,并具有断电保护功能,因而
本课题研究专家系统在森林防火中的应用。仔细分析和研究了森林火灾的扑救方法和方式,认真总结了国内外的森林防火技术,利用专家系统、WEB技术和COM技术,设计了一个火灾发生
本文给出了基于MyCluster算法的聚类搜索引擎框架及聚类结果评价体系。实现聚类搜索引擎的过程中将涉及多种编程语言(例如HTML、Javascript、CGI和C++等)和数学软件MatLab
移动计算技术的飞速发展,使得用户通过移动客户机随时随地访问分布式数据库上的信息成为可能。然而由于移动计算环境一些特点所限(例如不可靠的通信连接、移动客户机的随意移
随着J2EE跨平台技术的日趋成熟,因其可靠性、可扩展性等特点得到了市场的认可,J2EE技术成为了web开发的主流。电子政务系统作为互联网的一部分,其安全性和可靠性是首要考虑的