论文部分内容阅读
本文以江西省自然科学基金项目“数据挖掘的系统模型研究与实现”为课题主体,在深入研究模糊集理论和粗糙集理论和广泛了解国内外数据挖掘发展现状的基础上,提出了ARMRDB(Association Rules Mining in Relational DataBase)模型,该模型是基于关系数据库的通用关联规则挖掘模型。 本文介绍了ARMRDB模型的实现原理、基本结构和主要技术,详细阐述了模型中聚类分析和规则提取这两个关键环节的实现技术和工作流程。在模型的算法设计中充分考虑了算法实现的时空复杂性,使用增长型算法提高了模型的鲁棒性。在聚类分析中,利用模糊集方法对原始数据进行初始化处理,采用模糊相似算法实现了初始化数据的聚类,并提出了奇异类的概念。经过聚类后的数据对象,在同等类中具有相似的属性特征和数值规律,可以消除非同等类数据噪声的干扰。在规则提取中,利用粗糙集对不确定数据对象的分类优势,对各分类集进行属性约简,消除了数据对象中的冗余属性,从关键属性集中提取相应的关联规则,对输出规则的前、后件形式可以根据领域知识作出相应的调整。在规则提取的前阶段,将奇异规则另作分析,提高了规则提取的效率。为了获取真正有兴趣的规则,在考察规则客观兴趣度的同时,用相关分析的方法对强关联规则进行约束,以提高规则的精确度。对于模糊综合评价算法和主观兴趣度量的进一步研究与探索,是对ARMRDB模型的发展和完善,也是我们下一步的工作重点。 全文共分为七部分,分别讨论了课题来源及研究目的、模糊集和粗糙集理论知识、ARMRDB模型的基本原理、聚类分析及其实现、属性约简和规则提取技术。