论文部分内容阅读
在生物医学领域,由于Web数据源的大量涌现及其高度的异构性和自治性,加上生物信息本身所蕴含的复杂的领域联系,仅从语法和结构上进行信息集成难以满足应用的需要,从语义角度进行更深层次的集成一直是人们的期望。随着语义Web研究的深入,本体作为对共享概念模型的明确的规范化的说明,通过赋予信息良好的定义,为信息在知识层次上的共享和语义上的互操作带来了可能,也为信息的语义集成带来希望。本文以本体论为指导,研究了异构生物信息语义集成的若干技术,在以基因组学和蛋白组学为代表的后基因组时代,为领域专家提供方便的信息服务,帮助发现生物数据的规律,具有重要的应用价值。论文工作的主要成果包括以下几个方面:1. DrSNPGrid(Disease related SNP Grid)中基于本体的中介器/包装器结构的生物信息集成框架:分析了已有的生物信息集成系统的特点,从信息的语义集成角度出发,提出本体的分层设计并与中介器/包装器结构结合的集成框架。针对以关系数据库为代表的结构化数据源和以HTML页面为代表的半结构化数据源,研究了基于模式本体的包装器构造方法,实现独立于数据源结构的第一次数据封装;设计了中介器的两次查询重写,第一次通过领域本体推理及数据源定位将用户的语义查询重写为多个查询策略,第二次主要基于映射本体制定查询策略内不同数据源的访问顺序,实现独立于数据源访问的第二次数据封装;设计了基于本体的中间结果的二次集成。以上设计实现了信息的语义集成,并为后面基于语义的查询奠定了基础。2.信息集成中的本体管理:首先设计了资源注册中心,并根据本体在信息集成系统中的角色,从本体的构建和维护角度分别研究了领域本体、模式本体和映射本体的管理。3.基于本体的语义查询:定义了语义查询模型,并从语义层、数据模型层和语法层研究了语义查询实现的层次;结合信息集成框架,通过一个典型的应用场景研究基于语义的查询实现的各步骤:查询语义的确定、主要基于领域本体推理的查询策略生成、数据源访问顺序的制定、特定数据源访问及结果本体的集成,最终实现基于语义的查询。