论文部分内容阅读
本论文研究课题源于国家973基础研究项目(No.2002CB312006)“Internet环境下基于Agent的软件中间件理论和方法研究”和国家自然基金项目(No.60473077)“水印关系数据库关键技术研究”。 近年来,随着我国信息化建设的快速发展,知识的自动获取已成为一种重要的技术手段。数据挖掘研究如何从大量的数据中智能地自动地抽取出有价值的知识和信息,因而成为当前人工智能研究中非常活跃的研究领域。粗糙集理论是一种有效地处理模糊性和不确定性问题的数学工具,为数据挖掘提供了新的思路和基础。本文的研究工作主要围绕基于粗糙集理论的数据挖掘,重点从基于粗糙集理论的特征选择和连续属性离散化两个方面展开。本文的主要创新性研究工作包括: 1) 提出了基于属性出现频率的属性约简算法,这种算法以条件属性在分辨矩阵中出现的频率作为启发信息,以条件属性所在最小分辨矩阵项的基数作为辅助启发信息,来寻找决策信息系统的最小约简。实验证明,大多数情况下该算法能够找到系统的最优(最小)约简。在没有找到最优约简的情况下,算法能够找到次优约简。 2) 分析属性约简中条件属性之间的关系以及约简集合中条件属性和决策属性之间的关系。在粗糙集理论的基础上给出了属性相关度的定义,并且根据这一定义,提出了基于属性相关度的属性约简算法。实验结果证明,这种算法能够有效地去除属性子集中的无关属性和冗余属性。 3) 提出了基于粗糙集理论的确定候选断点集合的新算法,该方法能够在保证系统分辨关系的前提下,大幅度的降低候选断点的数量,从而大幅度的减少了后继离散化算法的计算量。实验表明,这种确定候选断点集合的办法是切实可行的。 4) 提出了一种基于断点权重的启发式连续属性离散化方法。这种方法将连续属性的候选断点作为一个单个的条件属性,建立新的决策信息系统以考察每个候选断点对信息系统分辨能力的贡献。将断点在分辨矩阵中的出现频率作为断点的权值,寻找系统的最优断点集合。实验结果表明,此算法能在较好地保留原信息系统的分辨能力的同时,有效地解决离散化问题。 5) 提出了一种基于DBSCAN聚类的连续属性离散化算法。这种离散化算法,结合基于密度分布的聚类算法和粗糙集理论中属性依赖度的概念,通过对决策信息系统中的所有实例进行聚类来实现连续属性的离散化。实验表明,这种离散化