论文部分内容阅读
本体是对特定领域知识概念化的明确而规范的说明,是描述该领域的概念以及概念间关系等知识的标准化术语系统,也被称为领域本体。在本体中,概念和概念之间的关系被逐一确立,并被赋予明确唯一的定义。本体的使用者运用这些规范化的概念和关系来描述该领域的相关事物和知识,减少了对相同涵义信息的表达异质性,从而实现信息的标准化描述,因此有利于各领域知识和信息在数据库及互联网中的存储与传播,加强了人机之间的理解和交流,是实现语义互联网的重要基础。与多数其它领域相比,生物医学信息学领域更充分地接受了本体思想,并发展和使用了更多的领域本体。本论文详尽而系统地介绍了生物医学领域中的一个新本体——人类肝脏疾病本体(Human Liver Disease Ontology, HuLDO)的构建过程、评估结果和应用举例,并简要介绍了另一个新本体——蛋白质相互作用本体(Protein-Protein Interaction Ontology, PPIO)的评估和应用过程。这些本体分别在肝脏疾病相关知识和分子相互作用信息的挖掘、整合、交流等方面具有着基础性的意义。人类肝脏疾病本体(HuLDO)是全面归纳人类各种肝脏疾病概念,并对其进行定义、分类和注释的术语系统,其所收录的疾病概念和术语来源于目前已有的疾病本体和经典术语集,以及国际和国内的肝脏病学领域权威著作。该本体目前共收录了227种肝脏疾病,对每种肝脏疾病均给出其定义、同义词、分类、描述说明等注释信息,还包含了部分疾病之间的多种病理学关系,每条记录的各个知识均经过人工确认并提供其参考来源信息。与已有相似本体和经典术语集相比:HuLDO具有最全面的肝脏疾病类型和最丰富的同义词等注释信息,为进一步的本体应用打下了坚实的基础。首先,根据HuLDO的疾病分类结构,我们构建了人类肝脏知识总库——LiverAtlas的疾病子库,并利用HuLDO进行了人类肝脏疾病相关基因/蛋白质信息的收集和整合。目前该库从16个已有数据库中整理和收录了与59种肝脏疾病相关的共18,243个遗传学生物分子事件,并对每条疾病与分子的关联性记录的可信度做出了参考评分。目前该库提供数据的浏览、查询、批量下载等功能,并与LiverAtlas的基因子库、蛋白质子库、通路子库等数据库之间建立了完善的数据关联。该数据库为肝脏疾病病理学分子水平的研究提供了丰富的参考信息。其次,为了不断扩充LiverAtlas疾病子库数据,我们利用HuLDO字典和多种生物分子名称实体识别方法,对文献中的肝脏疾病与基因/蛋白质分子间的关系进行了全面的挖掘。疾病与分子的关系挖掘重点在于疾病名称实体文本挖掘和分子名称实体文本挖掘两个环节,在前一环节中,我们深入地研究了基于HuLDO字典的文本挖掘的技术细节的优化;在后一环节中,我们利用人工构建的标准数据集,客观评估和比较了ABNER工具、GNAT工具,以及自行研发的生物分子名称识别方法的性能,并确定了综合性的优化挖掘策略,并对挖掘结果进行了可视化的展示。最后,结合HuLDO中所提示的疾病间的病理学关系和肝脏疾病数据库中所收集的各疾病相关分子,我们对“肝炎→肝硬化→肝癌”发展过程中的分子机制加以分析和推测,对三种肝病相关的和独有的基因进行了生物学过程、分子网络和通路、hub基因三方面的分析,并对分析结果逐一做出了生物学的解释,指出了潜在的新的疾病相关基因和生物学事件,为进一步实验研究提供了参考。蛋白质相互作用本体(PPIO)是基于事件概念模型构建的描述蛋白质相互作用所参与的生物过程、所在的亚细胞定位、所扮演的分子角色、所采用的作用方式、所实现的生物学功能和实验检测手段共六方面特征的本体,其概念和术语来源于Gene Ontology (GO)等权威的相关本体和术语系统。通过与其近似的描述蛋白质相互作用信息的术语系统——PSI-MI的比较发现:PPIO包含较为丰富而全面的蛋白质相互作用相关术语集合,其知识覆盖领域与后者相比各自有所偏重,PPIO是描述蛋白质相互作用的生物学特征和信息的理想本体。通过基于PPIO字典的文本挖掘实验,证实了PPIO在蛋白质相互作用相关生物学知识的文本挖掘等方面具有良好的应用效果和重要的应用前景。随着本体研究在生物医学领域的不断发展和完善,各种生物医学相关本体必将在生物学相关知识自动挖掘、信息整理、信息整合、数据库构建等方面发挥重要的作用,为生物医学知识信息的高效而准确的沟通和传播提供有力的帮助。