论文部分内容阅读
随着数据库技术的不断发展及其广泛应用,数据库中的数据量急剧增大,当大量数据不停地被收集和存储,业界人士对他们数据中项集之间的相关联系越来越感兴趣。这种数据中项集之间的有趣的相关联系称为关联规则。如今,关联规则已广泛应用于各个领域,如:医疗诊断,市场分析等。而算法效率不高、规则冗余度较大、用户仅对一部分关联规则感兴趣是目前关联规则挖掘算法普遍存在的问题,因此,从大量的数据中迅速挖掘用户感兴趣的关联规则,具有重要的现实意义。 本文主要研究了以下几个方面的内容: (1) 一种新的数据挖掘理论工具-粗糙集; (2) 一种数据预处理技术-决策表的泛化; (3) 基于粗糙集理论的关联规则挖掘系统的开发; 论文首先概述了数据挖掘基本原理,总结了现有的数据挖掘技术。通过对粗糙集理论的研究,阐明了粗糙集理论是一种尤为适用于不确定、不完整系统的数据挖掘的数学工具。在此基础上,重点探讨了粗糙集理论的属性约简方法。随后,讨论了数据预处理阶段属性值的泛化问题。最后,阐述了基于粗糙集理论的关联规则挖掘原型系统的设计和开发工作,其中,详细说明了在经典关联规则挖掘Apriori算法基础上改进后的算法的思想和步骤。并将原型系统作用于实验数据库,获得了较好的结果,证实了原型系统具有一定的实用价值。 本文的研究工作是一个尝试,有待于进一步的深入研究。