论文部分内容阅读
随着数据收集工具的广泛应用,海量数据的收集和积累导致“数据爆炸”,已经超出了人们理解和掌握的能力,传统的数据分析方法已不能满足需求,数据挖掘和知识发现技术应运而生并得到广泛应用。关联规则挖掘是数据挖掘研究的一个重要分支,用于发现存在于数据库中的属性集之间有趣的关系。量化关联规则挖掘是关联规则挖掘的一个重要研究课题,由于其在商业、生产等诸多领域的广泛应用,越来越受到数据挖掘界的重视与关注。本文在对关联规则挖掘研究的背景下,仔细分析了现如今国内外对量化关联规则挖掘研究的现状以及所采用的挖掘方法,在此基础上展开了对基于数据场的量化关联规则挖掘的研究工作。首先,介绍了数据挖掘技术的基本概念、挖掘对象、挖掘任务、基本过程和分类,然后介绍了关联规则的一些基本理论、概念、挖掘关联规则的基本步骤,重点研究了经典的关联规则的挖掘算法Apriori算法和其在挖掘量化关联规则中所存在的问题。在此基础上,通过运用数据场的思想,并结合数据场中数据之间所呈现出来的特性,提出了基于数据场的量化关联规则,该方法较以往的量化关联规则挖掘方法有以下几点改进:第一,在对数据集挖掘量化关联规则时,先将数据集中的每个数据都映射为数据场中的一个具有一定数据能量的数据点,每个数据点独立地向周围辐射并接收其他数据辐射过来的能量,以体现不同数据对数据挖掘任务的不同作用;第二,聚类部分,对量化属性进行整体聚类,使得聚类得到的属性区间簇更加合理;第三,在选择聚类算法时,结合数据场的特性,分析了K-均值聚类算法的优缺点,扬长补短,从而提高聚类的效果;第四,在计算支持度和置信度时,将每个数据对数据挖掘任务的不同作用体现出来,从而使得计算出来的支持度和置信度对规则的描述更合理。算法使用Microsoft Visual Studio2008开发工具编程实现,为了验证该算法的有效性,分别通过对Iris数据集、身体脂肪bodyfat数据集以及临床医学数据进行量化关联规则的挖掘分析,挖掘得到的量化关联规则与实际相关领域的知识相一致。