论文部分内容阅读
随着数据库管理系统在各个不同领域的广泛应用,数据库应用技术也不断的迅速发展,人们积累的数据越来越多。关联规则挖掘是数据挖掘技术中一种十分有用的方式。许多的研究人员对关联规则的挖掘问题进行了大量的研究。它们的工作包括对原有的算法进行优化,如引入随即采样、并行的思想等,以提高算法挖掘规则的效率;对关联规则的应用进行推广。然而,经典单维布尔算法Apriori算法的核心是基于频集理论的递推方法,这是由Apriori性质决定的。为了避免频集方法的一些缺陷,我们需要探索挖掘关联规则的新方法。随着数据库和数据仓库的发展,如何利用数据仓库中经过加工的数据进行数据挖掘已经成为一个重要的研究问题。基于数据仓库的联机分析处理(OLAP)技术是根据数据分析的需要,从原始数据中构造各种数据立方体,并对数据立方体进行有关操作,把结果返回给用户的过程。我们知道数据仓库与数据挖掘之间有着非常密切的关系。数据挖掘是建立在数据仓库上的决策支持技术。数据挖掘是从大量的数据中筛选潜在的有用信息的过程。它分为4个步骤:数据选择、数据转换、数据挖掘和结果分析。本文之所以引入在数据仓库系统中使用数据挖掘技术的关联规则挖掘方法是由于吸收了联机分析处理技术的钻取操作的长处。与此同时,我们摒弃了由Apriori性质带来的多次扫描数据库和修剪频繁项集的麻烦。避免了在调整维层次时,增加计算机的负担,从而提高了算法的效率。目前,基于数据立方体的多维关联规则挖掘的研究主要集中在针对不同密度的数据立方体的算法的改进,特别是对稀疏数据立方体有效的算法研究成果很多。在收集的资料中,我发现了把多维数据的关联规则挖掘用OLAP技术的钻取操作是可以实现的;并且希望在不使用Apriori性质的情况下得到有效的<WP=51>挖掘。第1章主要介绍了基本概念。它包括关联规则和它的种类,多维关联规则及分类,数据立方体和结构,OLAP技术,上钻、下钻和数据仓库的多维数据模型。第2章介绍了基于数据立方体的多维关联规则挖掘和Apriori_cube算法。它是总结前人的结论。首先,它描述了基于数据立方体的多维关联规则挖掘。其次,它分别说明了每一步并阐述了Apriori算法。最后,它从时间和效率方面进行了算法分析。第3章介绍了Apriori_cube算法的改进。它描述了算法的核心思想,并定义了Apriori_cube_dimenlevel算法,还进行了算法分析。 第4章是实验环节。我们使用SQL Server 7.0,讨论Apriori_cube_dimen -level算法的优点。第5章是结论。我们总结了本文的成果和不足。纵观全文我们知道挖掘多维关联规则不仅需要数据库方面的理论知识,还需要数据仓库的管理实践,特别是OLAP技术的应用。这一算法加强了维层次的调整,更符合用户的需求。通过实验的分析说明Apriori_cube_dimenlevel算法是有意义和可以实现的。