论文部分内容阅读
粗糙集理论是一种处理不精确、不完全、不一致数据的有效数学工具。自从上世纪80年代初Pawlak教授创立粗糙集理论以来,粗糙集理论在数据挖掘、机器学习、模式识别、人工智能等领域有着非常广泛的应用,其中数据约简是其最重要的应用之一。经过20多年的发展,基于粗糙集理论的数据约简的理论和方法不断发展和完善,但是也存在着一些问题,比如,应用粗糙集理论的约简方法处理大数据量的问题。相对而言,粗糙集理论应用比较窄(比如:和演化算法相比),研究者们提出了很多粗糙集的扩展模型,以便扩展粗糙集理论的应用。本文从属性约简和粗糙集的模型扩展两方面对粗糙集进行研究。首先,在不一致决策系统中我们提出了相对于个体的绝对约简的概念,并对相对于个体的各种约简进行比较,得出它们之间的超集子集关系;证明了信息论意义下的约简等价于μ-决策约简和μ-约简,从而统一了粗糙集理论在信息论意义下的约简和代数意义下的约简,并得出了相对于决策表的各种约简之间的超集子集关系。其次,我们对差别矩阵差别函数的方法进行了研究。证明了X.Hu等改进的差别矩阵差别函数得到的约简是一般决策约简,证明了叶东毅等改进的差别矩阵差别函数得到的约简是相对约简(也称为Pawlak约简);我们提出了一种两个决策表之间的新的差别矩阵差别函数,这种新的差别矩阵差别函数能进行增量式计算、并行计算和分布式计算。再次,在不完全决策系统中,我们研究了在信息单调递增的情况下的一些粗糙集特性,提出了这种情况下的属性约简原则,除了保持正区域不变外,还要求被约去的属性在非正区域不存在缺少值。根据这个原则进行属性约简,可以保证前一阶段进行的约简不会对后阶段产生不利的影响,保证了决策表的属性约简不丢失重要信息。最后,我们对粗糙集的模型进行扩展,得到两种粗糙集的扩展模型,一种是基于可达关系的粗糙集模型,另一种是基于概念综合的粗糙集模型。基于可达关系的粗糙集模型是将可达关系应用于粗糙集理论中,这种模型比传统的粗糙集模型(Pawlak模型和可变精度粗糙集模型)更一般,将粗糙集理论推广到一般的方法论。几乎所有已存的粗糙集模型都是研究如何用多个信息粒表示一个概念,我们提出的基于概念综合的粗糙集模型试图用一个信息粒表示多个概念。当然,我们提出的这两种粗糙集模型都刚刚起步,还有很多的工作等待着我们进一步研究。本文我们主要是对粗糙集中的属性约简进行了理论研究,并提出了两种基于粗糙集的扩展模型。我们的研究大部分属于理论研究的范畴,下一步我们将花更多的时间和精力在粗糙集理论的应用方面。