论文部分内容阅读
近年来,信息技术的广泛应用使企业采集到的数据以前所未有的速度增长。但是,海量数据采集后并未得到充分的应用和开发,信息含量高、内容丰富的数据库成为无人问津的数据坟墓,造成资源的极大浪费。知识处理技术的兴起与迅速发展,使海量数据的实际应用成为可能。基于粗糙集(Rough Set)理论的知识获取方法已成为一种重要的方法。该理论从新的视角对知识进行了定义,把知识看作是关于论域的划分,认为知识是有粒度的,它主要用于知识的简化及知识依赖性的分析。然而,利用粗糙集理论进行知识约简之前必须对连续属性知识进行离散化,这一过程将造成某种程度的信息损失,这是因为离散化后的属性值没有保留属性值在实数值上存在的差异。模糊集合也是研究信息系统中知识不完善、不准确问题的理论,它着眼于集合的模糊性,其解决问题的出发点是信息系统中知识的模糊性。法国学者D.Dubios和H.Prad于1992年将模糊集理论引入粗糙集中,提出模糊粗糙集的概念,解决了粗糙集离散化过程造成信息损失的问题。本文首先系统地总结了模糊粗糙集的研究成果及发展趋势,根据模糊粗糙近似推演方式的不同,主要形成了三种从不同角度研究的模糊粗糙集。其次,本文重点对属性模糊化方法——模糊聚类分析方法进行了研究,给出了复合属性模糊化的一般方法。本文引入模糊C均值聚类算法用以模糊化连续属性,并通过聚类有效性分析来确定最佳的分类数目,克服了目前属性模糊化方法需要人为地规定划分的类数,几乎不考虑信息系统的具体的属性值等缺点。将属性模糊化得到的属性隶属度矩阵用于模糊粗糙属性约简,提出了一种基于模糊粗糙集的属性约简算法。该算法计算复杂度低,容易实现。最后,文中以一个简单的气象信息系统为例说明了基于模糊粗糙集的知识获取方法的基本过程。结果表明该方法能够获取有实际意义而又较小的规则知识集。此外,利用本文提出的知识获取算法对包含大量决定玻璃种类相关信息的玻璃数据库进行了约简,提取出了对识别玻璃类型的有用的因素,大大减少了获取知识的数量,更有效地以较少的规则提供玻璃知识。