论文部分内容阅读
随着医学信息学及分子生物学的发展,人类积累了海量的生物医学数据。这些数据分散在多个层次,既包括宏观方面的临床诊疗数据,也包括微观方面的组学数据。然而由于各个层次的数据之间缺乏有效的关联,基础研究的成果没有很好地转化为直接造福人类的临床实践,而临床实践中产生的问题也没有很好地引领基础研究的方向。海量生物医学数据已被人类利用到的价值还远小于这些数据本身的价值。如何在临床数据与组学数据之间建立桥梁,挖掘已有数据中的潜在知识,并促进临床研究与基础研究的双向转化,是生物医学信息学面临的新的科学问题。近年来,国内外已经有越来越多的学者开始关注如何在临床数据与组学数据之间建立联系,但是目前还没有发现针对一种特定疾病,综合分析已有的基因表达数据来挖掘临床数据与基因数据之间关系的研究。因此本论文针对结直肠癌,以促进结直肠癌的临床诊治为目标,研究利用公共数据源挖掘结直肠癌临床-组学关系的方法,并构建知识库及知识共享平台共享知识挖掘结果与挖掘方法。本论文提出了一个结直肠癌临床-组学关系挖掘方法,具体包括基于UMLS的结直肠癌临床概念提取方法、基于统计学分析的结直肠癌临床-组学关系挖掘方法和基于文献挖掘的结直肠癌相关基因提取方法等三部分。其中基于统计学分析的结直肠癌临床-组学关系挖掘方法是本论文的重要内容。利用这个方法获取结直肠癌临床-组学知识后,本论文提出利用UMLS语义类型分析临床知识、利用KEGG通路分析组学知识、利用Gephi可视化分析临床-组学关系知识,以对知识获取结果进行评价与解释。本论文获取了与结直肠癌相关的665个临床概念,8393个基因以及23517条关系。在知识分析过程中,还获取了一些与结直肠癌相关的新发现(相关疾病:骨质疏松症;相关症状:心绞痛;等)。为将获取得到的多方面知识有效的组织在一起,本论文建立了一个灵活且可扩展的结直肠癌临床-组学知识库存储这些结果。最后,基于结直肠癌临床-组学知识库,本论文建立了一个结直肠癌临床-组学知识共享平台。该共享平台不仅提供结直肠癌临床-组学知识查询与分类浏览等功能,还提供交互式的关系重分析功能。本论文针对国内外生物医学信息学研究现状,以结直肠癌为研究对象,提出了一个结直肠癌临床-组学关系挖掘方法,并构建了一个结直肠癌临床-组学知识库,为同时促进疾病的临床研究与基础研究提供借鉴。