论文部分内容阅读
随着计算机技术的不断发展,人们在信息时代面临着越来越多的数据,如何发现隐藏在众多数据中的内部信息成为人们研究的热点问题。传统的数据库管理系统已经不能满足人们从数据库中抽取隐藏信息的需要,因此提出了知识发现和数据挖掘的概念。知识发现是从数据集中识别出有效的、新颖的、潜在有用的,以及最终可理解的模式的非平凡过程。数据挖掘是从数据库的大量数据中提取隐含的、未知的并有潜在价值的信息和知识的过程。数据挖掘是知识发现中最关键的步骤,也是知识发现技术难点,是目前相当活跃的研究领域。粗糙集理论是波兰数学家Pawlak Z于1982年提出的一种分析模糊和不确定知识的强有力的数学工具。粗糙集理论作为人工智能领域的一个新的研究热点,能有效地分析和处理不精确、不一致、不完整等各种不完备信息,并从中发现隐含的知识,揭示潜在的规律。这个特点使得粗糙集理论非常适合应用于数据挖掘。研究基于粗糙集理论的数据挖掘方法具有极大的理论价值和现实意义。本课题对基于粗糙集理论的数据挖掘方法进行了系统的研究,主要包括以下内容:1、介绍了数据挖掘和粗糙集的相关理论。分析了数据挖掘和粗糙集的研究现状,对其技术的热点、研究领域以及未来发展趋势进行了探讨,为本课题的全面开展奠定了基础。2、对粗糙集理论的约简算法进行了比较深入的研究。约简算法包括属性约简和属性值约简,其中属性约简是基于粗糙集理论的数据挖掘模型中的关键步骤,求取高效、快捷的属性约简算法是该理论研究的主要课题之一。论文介绍了基本的属性约简和属性值约简算法,并归纳总结了启发式属性约简算法。3、在目前属性约简算法的基础上提出了一种基于属性频率的改进的属性约简算法。该算法基于HORAFA算法,是一种启发式算法,在计算区分矩阵的基础上,最终能够找到决策信息系统的一个较优约简。4、针对传统的基于粗糙集理论的数据挖掘模型存在着不实用的特点,在其