面向本体学习的粒计算方法研究

被引量 : 10次 | 上传用户:jialufeng
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着Web发展,面向主题的领域数据源(本文称为领域信息系统)不仅越来越多,而且其包含的信息非常丰富。这类数据源可以归属于半结构化数据源,具有内部结构不完整、内容不完备或不精确或不确定、数据量大、动态和分布式存储等特点。如今,从这类数据源中用于实现知识抽取和知识表示的方法正变得日益重要。然而,现有的本体学习方法基本上是基于非结构化和结构化数据源下提出的,对半结构化数据源进行本体学习时一般按基于非结构化方法进行相应处理,而没有充分考虑半结构化数据源本身具有的隐含结构特征。从现有的文献资料看很少专门介绍基于半结构化数据源的本体学习方法与技术的阐述。因此,从领域信息系统中实现知识抽取以构建近似本体必然给本体学习算法带来很大的挑战。另一方面,虽然在粒计算数据挖掘方面有不少学者进行了广泛深入的研究,但从领域信息系统这类数据源中进行基于粒计算的数据挖掘方法研究还不多见。由于粒计算在不完备、不确定信息处理和对复杂问题近似求解方面具有特殊的优势,所以针对领域信息系统,通过研究基于粒计算的数据挖掘方法不仅扩展数据挖掘、知识发现的理论与方法,而且将为在复杂数据源下的本体学习提供一条有效的途径。本文以粒计算理论为指导,针对领域信息系统就面向本体学习的粒计算方法进行了一些探索性的研究工作。本文的主要贡献表现在以下几个方面:(1)通过对领域信息系统中信息函数的扩展,给出了领域信息系统的形式化描述和相应的粗糙集,提出了面向本体学习的领域概念粒度空间模型首先,由于领域信息系统可以归属于一种半结构化数据,具有数据不完备又有数据值是多值等特点,需要对信息函数进行扩展。通过扩展的信息函数可以定义领域信息系统中对象之间的各种关系,包括等价关系,由此给出了相应的粗糙集模型,从而拓展了粗糙集应用环境。其次,从面向本体概念学习和分类学习的需要出发,针对领域信息系统提出了一种逐层粒化方法生成具有不同抽象程度的信息粒(本文称为对象粒),并从粒计算的近似概念观点出发定义了对象粒的特征描述和相应的特征支持集,构建了领域对象粒度空间。将对象粒及其特征描述结合为一个整体定义为概念粒,以此来体现领域(近似)概念。并通过层次粒化所生成的领域对象粒度空间诱导出相应的领域概念粒度空间。讨论了概念粒度空间中概念粒之间的关系、概念粒之间的运算、有关性质和领域不确定信息的粒近似表示,分析了概念粒度空间模型的特点。并将基于领域信息系统的本体概念学习和分类关系归结为概念粒度空间生成的过程。(2)针对领域本体概念和概念之间关系获取的需要,提出领域多层次概念获取的粒计算方法基于所提出的领域概念粒度空间模型,针对领域信息系统中特征值具有不确定或不精确的情形定义了具体的粒化准则,提出领域多层次概念获取算法(CGS),从而为领域信息系统的本体概念学习和分类关系学习提供了一种有效的解决方法和实现技术。并在该算法的基础上针对领域信息系统具有动态特征和分布性特征提出了领域多层次概念获取的增量方法(CGS2),从而能有效地适应动态数据源的需要。通过算法测试比较、原型演示测试,以及本体学习原型演示系统的仞步应用表明所提出的方法是有效的。(3)针对领域本体关系概念获取的需要,提出领域多维多层次之间关联关系挖掘的粒计算方法通过关联关系的挖掘来实现领域本体关系概念及非分类关系的学习是一种经常使用的方法。先前的方法是针对非结构化数据源在已经具有概念集的基础上发现概念之间的关联关系。本文应用特征值域概念层次结构和关联关系挖掘的优化策略,提出了基于粒计算的领域多维多层次关联关系挖掘算法(G—Approach)。对所提出的算法进行详细的实例说明,并选择不同类型数据集和其他典型挖掘方法进行不同角度的测试与比较。测试结果表明了所提出的方法是有效的。另外,本文所提出的领域多维多层次之间关联关系挖掘的粒计算方法是直接运行于领域信息系统上,用于发现具有不同概念层次之间的关系概念。因此,所提出的方法不仅扩展了对复杂数据源数据挖掘方法,而且为领域本体关系概念学习提供了一种有效的解决方法与实现技术。同时基于G-Approach方法提出领域多维多层次间关联关系的粒计算增量挖掘方法(G-Approach2),从而能适应动态的或分布式的领域信息系统的需要。实验测试与比较结果表明对非稠密型数据源G-Approach2方法比G-Approach方法具有更好的性能,但对完全属于稠密型数据集的测试结果却不如直接采用CGS方法好。因此,这需要我们进一步深入分析研究,以图改进增量方法使之能对稠密型数据集有更好的性能。(4)针对本体非分类关系学习的需要,提出基于不同概念粒度空间的概念粒间交叉关系获取方法针对同一领域信息系统从不同的角度或侧面构建不同领域概念粒度空间,通过分析粒间上下文,提出了基于不同领域概念粒度空间的概念粒间交叉关系获确椒āS纱宋恿煊蛐畔⑾低辰辛煊虮咎宓姆欠掷嘌疤峁┝艘恢钟行У慕饩龇椒ㄓ胧迪旨际酢?(5)提出基于粒计算的本体学习框架结合形式概念格提出基于粒计算的简单本体生成算法;提出基于粒计算的本体学习框架。该框架主要包括三个部分,一是领域概念获取,二是领域概念间关系的获取,三是将所获取的概念和关系映射为本体类和关系,包括类映射、关系映射和实例映射等;基于该框架和面向本体学习的粒计算方法设计了相应的原型演示系统,通过具体的数据集的测试运行验证了所提出的框架和算法是有效的。
其他文献
被称为"社会生活百科全书"的民法典,是市场经济的基本法和市民生活的基本行为准则,也是法官裁判民商事案件的基本依据。自中共十八届四中全会提出"编纂民法典"以来,民法典编
参考国际原子能机构(IAEA)近年来发表的核或辐射应急准备与响应准则方面的技术文件,结合国内的经验,制定我国相应的放射卫生防护标准;其内容涉及应急照射引起的健康后果及相
采用自身对照的实验方法,对受试者完成4种篮球组合技术前后的心率、血压、血乳酸等指标进行检测。实验结果发现,在“计时计命中率”条件下进行篮球组合技术练习,负荷强度较大
企业要想取得长远的发展,除了科学合理的人力资源配置外,更重要的是需要稳定的资金来源,这是一个企业生存和发展的根本。2008年因为美国的次贷危机所带来的整体经济的萧条,使
本文对煤油两用沥青搅拌设备从结构组成、设计、应用等三方面进行了全面的论述和分析。分析了燃煤和燃油在沥青搅拌设备上使用的经济效益,燃煤与燃油相比成本可节约69%~83%。
凹腔作为火焰稳定器具有结构简单、火焰稳定能力强的特点。本文以亚燃冲压发动机燃烧室火焰稳定技术和高效燃烧为出发点,开展了以凹腔作为火焰稳定器的亚燃燃烧室试验与数值
宽带信号具有良好的距离分辨率、电磁兼容性、抗干扰性能、较高的穿透能力和低截获特性,因此自上世纪60年代以来,在雷达和通信等诸多领域得到了广泛的应用。人们在宽带信号产
被称为"社会生活百科全书"的民法典,是市场经济的基本法和市民生活的基本行为准则,也是法官裁判民商事案件的基本依据。自中共十八届四中全会提出"编纂民法典"以来,民法典编
我国摩托车工业通过二十多年的快速发展,其产销量已多年来位居世界第一。但摩托车工业的发展历史基本为引进与仿制的历史,摩托车的设计水平多年来一直与发达国家存在较大差距
刑事诉因制度贯穿于起诉与审判的全过程,对于明确法院审判对象和范围,保障被告人的辩护权,理顺检察院与法院的关系,保证控辩平等法官中立的理想诉讼结构的实现都具有重要作用