论文部分内容阅读
概念格是近年来获得较快发展的数据分析的有力工具之一。从数据集中生成概念的过程实质是一种概念聚类过程,它被成功的应用于许多数据库系统中。特别的,在知识工程和软件工程等领域已有了广泛的应用。在概念格的应用中,首先要根据数据集即形式背景建出概念格,所以高效的建格算法是概念格理论在应用中实现的前提。国内外的研究者在概念格的建造方面已提出了一些算法。
现有的概念格建格算法主要分为:批处理算法和增量算法。批处理算法主要用于在数据量较小或给定的数据集上的概念格的建造;此类算法主要有:Bordat的算法,Chein的算法,Ganter的算法,Nourine的算法等;增量算法除了能实现批处理算法的功能外,对一已建成概念格,但是概念格的形式背景是动态的数据,当数据变动时需要重新建格,此时增量算法是更有利的算法。增量算法典型的有:Godin,Capineto和T.B.Ho等人的算法。
本文通过分析Bordat的算法和Godin的算法在建格过程中存在的不便之处,并基于概念格的一些性质,分别提出了新的概念格建格算法。
其主要工作有:一.引入概念格的分层,讨论了分层节点的性质,给出属性和对象约简保持格结构不变的同构定理;根据讨论的性质,给出以宽度优先的逐层建格的批处理算法;
二.在限制相对较弱的条件下,给出增加新对象时基本格中的节点是否是产生子格节点的条件,据此条件给出新的增量算法。论证了算法的合理性。