论文部分内容阅读
近十几年来,随着科学技术的不断发展,人们产生和收集数据的能力迅速提高,因而数据规模急剧增加,仅仅依靠现有的技术是很难分析这些海量数据的,于是出现了“数据爆炸但知识贫乏”的现象。人们希望能够有新的工具自动的分析和整理如此庞杂的数据,从中发现有价值的东西,为决策提供必要的支持。面对这一挑战,数据挖掘技术应运而生了。数据挖掘技术是指从大量的、不完全的、有噪声的、模糊的、随机的数据中抽取出潜在的、有效的、新颖的、有用的和最终可以理解和运用的知识的过程,它是涉及数据库、人工智能、统计学等众多学科的一个非常活跃的研究领域。数据挖掘不仅吸引了众多学者为其投入极大的热情,同时也引起了产业界人士的广泛关注。数据挖掘有许多功能,比如关联分析、聚类分析、例外分析等,其中例外分析也称例外模式挖掘,它是数据挖掘的一个重要研究课题。一个数据库中的数据一般不可能都符合分类预测或聚类分析所获得的模型,那些不符合大多数数据对象所构成的模型的数据对象被称为异类(Outlier)或例外(Exception)。以前许多数据挖掘算法在正式进行数据挖掘之前都把例外对象当作噪声而将其排除在数据挖掘的分析处理范围之外。但是从知识发现的角度来看,在一些应用场合,如电子商务欺诈行为的检测,银行信用卡欺诈行为的检测等,那些很少发生的事情往往比经常发生的事情更有趣、更有研究价值。因此,例外模式挖掘是一项重要且有意义的研究工作。本文提出了一种新的例外模式——Burst模式的定义,这种模式只在单个或者少数几个特定的时段或数据库中出现,并且在本阶段或者本数据库中相对其他模式而言有很高的支持度。这种模式支持度高,说明它们在各自的时段或数据库中很频繁;而它们又只有少数几个时段或者数据库支持,这就说明它们是特有的。那么这种模式就可以给公司或企业的决策者在做决策的时候提供支持和帮助。公司可以根据它们的特殊性制定出特殊的决策,加快公司的发展,提高公司的利润。因此,如何有效地在数据库中挖掘Burst模式就成了一项很有意义的研究工作。本文第一章首先简要介绍了数据挖掘的基本概念、功能和面临的挑战;第二章详细介绍了与本文密切相关的关联规则挖掘的问题、方法和技术;接着在第三