论文部分内容阅读
DNA、RNA及蛋白质数掘,随人类基因组计划(简称为HGP)在世界范围内的广泛开展而大量产生。人类基因组研究中一项必不可少的内容就是上述数据的分析与研究。但由于上述数据的数据源各不相同,如何从各异构数据库中较为高效的查询到分析研究工作所需要的数据信息,是DNA、RNA及蛋白质数据分析处理研究过程中所必须解决的一个问题。且随着后基因组时代的来临,系统生物学开始兴起,以整合的系统的观点分析生物学数据成为必然。本文研究一种基于XML的DNA数据联邦模式集成方法,并对此方案进行了具体实施——基于XML的DNA数掘联邦模式集成系统。具体内容主要包括:分析了DNA数据整合问题中的语法异构问题和语义异构问题,利用XML强大的数据描述能力,易于表达结构化数据及半结构化数据,特别适合用来做数据集成的中间格式等特点,解决了DNA数据语法异构问题。针对DNA数据的语义异构所带来的集成问题,提出了基于联邦数据库模式、基于XML数据集成技术的DNA数据集成方法。具体包括:设计基于XML和联邦数据库模式的元数据模型,设计满足DNA数据特点的联邦数据字典;设计联邦查询处理机制,对各类型的语义异构数据进行集成,解决DNA数据的语义异构问题。本文最后给出了于XML的DNA数据联邦数据库模式集成系统的设计思路,具体包括:系统的总体设计、系统的UI设计、系统的关键技术,并给出了基于XML的DNA数据联邦数据库模式集成原型系统。