论文部分内容阅读
形式概念分析作为一种数学理论于1982年由德国学者Wille首先提出,概念格结构模型是其核心数据结构。概念格本质上描述对象与属性之间的联系,表明概念之间的泛化、特化关系,其相应的Hasse图实现了数据的可视化。目前形式概念分析已被广泛研究并应用到机器学习、软件工程和信息检索等领域。本文紧密跟踪国际学术前沿,主要对基于形式概念分析理论的知识获取模型进行研究,所获研究成果不仅从理论上丰富和发展了形式概念分析,而且由于其广泛的应用背景,这些结果同样具有重要的应用价值。本文的主要创新点和研究内容包括:(1)将形式概念分析理论引入到粗糙集中,提出基于形式概念分析的粗糙集模型。该模型首先解决信息系统上的代数结构问题,即在信息系统上诱导出一个格结构,格中的结点称为粗糙概念;然后探讨基于粗糙概念的信息系统中的一些常见问题的求解,如核和约简;最后给出粗糙概念在决策表中的应用。另外,决策依赖以其描述性强、便于理解等优点已之成为决策表中一种常用的知识表示形式,从而得到了广泛的应用,因此,我们在决策表中应用推理规则得到一个完备且无冗余的决策依赖集。该模型为粗糙集提供一种新的合理化的解释,有利于人们从形式概念分析的角度加深对粗糙集的理解。(2)将概念格和集成学习技术引入到多示例学习中,提出基于概念格的多示例集成学习模型。该模型以训练集中的包而非包中的示例作为研究对象构建概念格,一定程度上能有效降低概念格构造的时间、空间复杂度。针对唯一特征集合往往只能对训练集中的部分而非全部正确分类的局限性,该模型引入多个局部目标特征集合而非唯一目标特征集合去近似正确地分类整个训练集。由于概念格的本质是聚类(一个概念即为一类),因此它可以把训练集聚为多个类,将一个多示例学习问题分解为多个局部多示例学习问题;然后在每个局部多示例学习问题中求解局部目标特征集。通过引入集成学习技术,集成所有局部目标特征集去预测训练集之外的包的标记,同时可以将所有被标记为正的包进一步细分为多个类。该模型是形式概念分析应用于机器学习领域的一个初步探索,同时也为求解多示例学习问题提供一种新的思路。(3)将概念格和粒度计算引入到本体研究中,提出基于概念格的不同粒度下的领域本体模型。该模型为本体的构建、合并和连接提供统一的基于领域本体基的求解方法。该模型为有效缓解复杂领域中海量概念带来的影响,通过引入粒度计算有助于隐藏一些低层概念,即在更高层次更小范围内去发现重要概念;另外,该模型还讨论不同粒度下的领域概念之间的相似性度量,以及多粒度下相关领域本体之间的相似性度量,为专家准确判定概念之间、本体之间的关联程度提供参考。该模型在实际应用中还存在一些问题,如领域本体的构建、合并和连接过程仍离不开领域专家的干预,但其为概念格与本体的进一步结合提供新的思路。如何通过知识挖掘手段并结合人工智能的方法自动获取本体,是我们今后的研究重点之一。(4)将粒度计算引入到形式概念分析理论,提出形式概念分析在不同粒度下的知识获取模型。该模型为概念格构建和规则获取提供统一的基于模糊粒化基的求解方法,粒度计算的引入有效缓减复杂格结构和海量规则所带来的影响。该模型重点讨论不同粒度下的概念格构造和多粒度下的决策规则提取,鉴于决策规则集中存在着大量的冗余规则,通过引入推理规则可以去掉所有冗余的决策规则,并最终得到多粒度下的完备且无冗余的规则集。该模型为构造结构较简单的概念格、降低海量概念和海量规则提供有益的方法。综上所述,本文提出四个基于形式概念分析理论的知识获取模型,即基于形式概念分析的粗糙集模型、基于概念格的多示例集成学习模型、基于概念格的不同粒度下的领域本体模型及形式概念分析在不同粒度下知识获取模型,这些模型不仅在理论上拓展形式概念分析方法,而且对形式概念分析的应用起到积极的推动作用。