论文部分内容阅读
随着Web发展,面向主题的领域数据源(本文称为领域信息系统)不仅越来越多,而且其包含的信息非常丰富。这类数据源可以归属于半结构化数据源,具有内部结构不完整、内容不完备或不精确或不确定、数据量大、动态和分布式存储等特点。如今,从这类数据源中用于实现知识抽取和知识表示的方法正变得日益重要。然而,现有的本体学习方法基本上是基于非结构化和结构化数据源下提出的,对半结构化数据源进行本体学习时一般按基于非结构化方法进行相应处理,而没有充分考虑半结构化数据源本身具有的隐含结构特征。从现有的文献资料看很少专门介绍基于半结构化数据源的本体学习方法与技术的阐述。因此,从领域信息系统中实现知识抽取以构建近似本体必然给本体学习算法带来很大的挑战。另一方面,虽然在粒计算数据挖掘方面有不少学者进行了广泛深入的研究,但从领域信息系统这类数据源中进行基于粒计算的数据挖掘方法研究还不多见。由于粒计算在不完备、不确定信息处理和对复杂问题近似求解方面具有特殊的优势,所以针对领域信息系统,通过研究基于粒计算的数据挖掘方法不仅扩展数据挖掘、知识发现的理论与方法,而且将为在复杂数据源下的本体学习提供一条有效的途径。本文以粒计算理论为指导,针对领域信息系统就面向本体学习的粒计算方法进行了一些探索性的研究工作。本文的主要贡献表现在以下几个方面:(1)通过对领域信息系统中信息函数的扩展,给出了领域信息系统的形式化描述和相应的粗糙集,提出了面向本体学习的领域概念粒度空间模型首先,由于领域信息系统可以归属于一种半结构化数据,具有数据不完备又有数据值是多值等特点,需要对信息函数进行扩展。通过扩展的信息函数可以定义领域信息系统中对象之间的各种关系,包括等价关系,由此给出了相应的粗糙集模型,从而拓展了粗糙集应用环境。其次,从面向本体概念学习和分类学习的需要出发,针对领域信息系统提出了一种逐层粒化方法生成具有不同抽象程度的信息粒(本文称为对象粒),并从粒计算的近似概念观点出发定义了对象粒的特征描述和相应的特征支持集,构建了领域对象粒度空间。将对象粒及其特征描述结合为一个整体定义为概念粒,以此来体现领域(近似)概念。并通过层次粒化所生成的领域对象粒度空间诱导出相应的领域概念粒度空间。讨论了概念粒度空间中概念粒之间的关系、概念粒之间的运算、有关性质和领域不确定信息的粒近似表示,分析了概念粒度空间模型的特点。并将基于领域信息系统的本体概念学习和分类关系归结为概念粒度空间生成的过程。(2)针对领域本体概念和概念之间关系获取的需要,提出领域多层次概念获取的粒计算方法基于所提出的领域概念粒度空间模型,针对领域信息系统中特征值具有不确定或不精确的情形定义了具体的粒化准则,提出领域多层次概念获取算法(CGS),从而为领域信息系统的本体概念学习和分类关系学习提供了一种有效的解决方法和实现技术。并在该算法的基础上针对领域信息系统具有动态特征和分布性特征提出了领域多层次概念获取的增量方法(CGS2),从而能有效地适应动态数据源的需要。通过算法测试比较、原型演示测试,以及本体学习原型演示系统的仞步应用表明所提出的方法是有效的。(3)针对领域本体关系概念获取的需要,提出领域多维多层次之间关联关系挖掘的粒计算方法通过关联关系的挖掘来实现领域本体关系概念及非分类关系的学习是一种经常使用的方法。先前的方法是针对非结构化数据源在已经具有概念集的基础上发现概念之间的关联关系。本文应用特征值域概念层次结构和关联关系挖掘的优化策略,提出了基于粒计算的领域多维多层次关联关系挖掘算法(G—Approach)。对所提出的算法进行详细的实例说明,并选择不同类型数据集和其他典型挖掘方法进行不同角度的测试与比较。测试结果表明了所提出的方法是有效的。另外,本文所提出的领域多维多层次之间关联关系挖掘的粒计算方法是直接运行于领域信息系统上,用于发现具有不同概念层次之间的关系概念。因此,所提出的方法不仅扩展了对复杂数据源数据挖掘方法,而且为领域本体关系概念学习提供了一种有效的解决方法与实现技术。同时基于G-Approach方法提出领域多维多层次间关联关系的粒计算增量挖掘方法(G-Approach2),从而能适应动态的或分布式的领域信息系统的需要。实验测试与比较结果表明对非稠密型数据源G-Approach2方法比G-Approach方法具有更好的性能,但对完全属于稠密型数据集的测试结果却不如直接采用CGS方法好。因此,这需要我们进一步深入分析研究,以图改进增量方法使之能对稠密型数据集有更好的性能。(4)针对本体非分类关系学习的需要,提出基于不同概念粒度空间的概念粒间交叉关系获取方法针对同一领域信息系统从不同的角度或侧面构建不同领域概念粒度空间,通过分析粒间上下文,提出了基于不同领域概念粒度空间的概念粒间交叉关系获确椒āS纱宋恿煊蛐畔⑾低辰辛煊虮咎宓姆欠掷嘌疤峁┝艘恢钟行У慕饩龇椒ㄓ胧迪旨际酢?(5)提出基于粒计算的本体学习框架结合形式概念格提出基于粒计算的简单本体生成算法;提出基于粒计算的本体学习框架。该框架主要包括三个部分,一是领域概念获取,二是领域概念间关系的获取,三是将所获取的概念和关系映射为本体类和关系,包括类映射、关系映射和实例映射等;基于该框架和面向本体学习的粒计算方法设计了相应的原型演示系统,通过具体的数据集的测试运行验证了所提出的框架和算法是有效的。