论文部分内容阅读
【摘要】文章针对目前各大基因数据库之间互联、互通和相互利用中存在的一些问题,设计了基于数据挖掘技术的异地异构生物信息共享的数据仓库解决方案,并给出了该方案的实现框架-基于Web的生物信息数据仓库(DWBW)。
【关键词】计算机应用;人工智能;生物信息学;数据挖掘技术
【中图分类号】TP391
【文献标识码】A
【文章编号】1672—5158(2012)10-0078-01
一、生物信息数据库的现状及问题
在生物信息学的发展过程中,逐步建立起了大量基于网络的生物数据库,而且开发了众多检索工具,从而实现了生物信息数据的智能处理和综合分析。生物信息数据在具有增长迅猛、更新及时、种类繁多等特点的同时,更表现出高度的复杂性、多样性和不一致性。
随着生物信息数据量的激增以及数据处理能力的复杂程度不断提高,现有的生物信息数据库已经逐渐暴露出许多问题。三大核酸数据库依靠传统方式交换数据,无法及时反应出其他专用生物信息数据库的变化情况以及非核酸类数据信息。网上所提供的大部分数据分析工具采用面向问题的搜索方法,搜索效率随着问题规模的扩大而降低,并且无法智能地对数据中存在的未知知识进行发掘。为此,在后基因组时代,需要将数据仓库思想及智能数据挖掘技术运用到生物信息学领域中。
二、基于生物信息数据仓库的数据挖掘技术
(一) 生物信息数据库中的算法工具
在生物信息学中,基因比对是最常用和最经典的研究手段。在核酸序列或蛋白质序列之间进行两两比对,比较两个序列之间的相似区域和保守性位点,寻找二者的相似形、同源性,进而探寻可能的分子进化关系,揭示序列中蕴涵的结构、功能等信息。数据挖掘主要存在以下几种经典分析模式:关联模式分析、序列模式分析、分类分析、聚类分析,其中关联模式分析应用最为广泛。
(二) OLAP和数据挖掘技术
传统的针对数据库的开发工具多为联机事物处理模式,它主要是面向具体的查询和统计,有着较为具体的应用目的。然而随着越来越多数据库的出现,数据量的迅猛增长,OLTP在数据资源的充分利用、为用户提供有效支持和帮助等方面,则显得力不从心。因此,基于数据仓库的联机分析处理以及数据挖掘引起了日益广泛的关注和应用。OLAP是一种自上而下、不断深入的分析工具。用户提出问题或假设,OLAP则负责从上而下深入地提取出关于该问题的详细信息,并以可视化的方式呈现给用户。DM是一种决策支持过程和挖掘性工具,它主要基于人工智能、机器学习、统计学等技术,高度自动化地对原始数据进行分析,发现隐藏在数据中的模式,做出归纳性和预测性的推理。
(三) 基于生物信息数据仓库的数据挖掘技术
实现数据挖掘的前提条件是必须具有海量数据,而这恰恰是数据仓库的基本特点之一,二者紧密结合可以有效解决大量应用中出现的问题。在生物信息学领域,使用数据挖掘技术可以大幅提高研究人员的工作效率,改变原有的预测法;数据挖掘算法还可以结合生物信息专业领域的公式算法,根据研究人员的设想,对数据进行全面高效的分析。
基于数据挖掘等技术发展起来的智能决策技术具备了在生物信息学领域中大展身手的天赋,特别是基于海量数据的数据挖掘和开采技术更具有广泛的需求和应用背景。另一方面,目前生物信息学的研究方法和发展情况,已经形成了较为完善的智能决策系统,成为数据仓库和数据开采较为成功的应用案例。另外,现有各种生物信息应用分析软件从一定程度上讲,已经反映并且实现了数据仓库及数据挖掘的思想和技术。
三、实现生物信息异地多源数据库的综合利用
(一) 建立基于Web的生物信息数据仓库
基于现有的生物信息数据库,运用数据仓库思想,利用OLAP和数据挖掘技术,建立生物信息数据仓库,是一种不需要大幅增加硬件设备以及物理装置的前提下,实现基于Web平台的生物信息集成与处理平台的可行方案。设计一个基于Web的生物信息数据仓库,其主要结构由五部分组成:外部数据源;基于Web的数据调度、传输;数据的变形整合;元数据规则、元数据管理;基于Web的综合管理平台。
DWBW以DDBJ/EMBI/GeneBank作为主要数据源,同时以其他主要的生物信息数据库作为整个数据仓库的基本数据源。通过分析数据库结构和数据结构类型,建立DWBW的元数据规则。这样,基于上述各种数据库就可以建立起一个基于Web的虚拟数据仓库,由于不存在一个物理上位于某地的存储中心来保存这些数据,用户面对的只是基于网络的分布式虚拟的数据仓库。其模型、算法的运行由专用的分析工具服务器来完成,而对于数据的调用和整理都是在源数据库上进行的,根据不同用户提交问题的不同,具体分析过程则由分配服务器交给服务器去完成分析,只是最终将结果返回请求分类服务器,显示给用户。
DWBW将通过统一的基于Web的页面与用户进行交互,在后台则主要由请求分类服务器、Web服务器及专用分析工具服务器共同完成对问题的提交和分析,实现对数据仓库元数据规则的理解,然后根据分类的结果,与相关分析工具进行匹配,将问题提交到相应的分析工具服务器进行处理。处理完成后返回给请求分类服务器,进而返回给提交问题的用户。
(二) DWBW的关键技术
生物信息学元数据的抽取。数据的整理和抽取,是开发所有数据仓库时所遇到的最难解决也是最具挑战性的问题之一。将不同时期生成的大量历史数据中的数据结构、字段的定义以及对象之间的关系等一系列的描述信息整理出来,并制定一套通用可行的规范,本身就是一个工作量巨大、难度极高的问题。因此,数据仓库元数据的抽取整理,成为建立DWBW的关键问题。数据抽取、清洗、转换和装载过程与一般数据仓库建立过程中的数据整理不完全相同,其数据具有规范性强,存储结构相对简单,转换、装载容易等特点。
虚拟生物信息数据仓库的建立。虚拟生物信息数据仓库实现对生物信息平台相关数据的组织和集成,并且将不同主题的数据对象分别存储到各个数据集市中,同时还将建立起部分有价值数据的在线OLAP数据库。虚拟数据仓库采用中间件充当数据中心,提供信息的访问接口,对存贮在不同数据源的生物信息数据进行存取操作。由于虚拟生物信息数据仓库一般不是针对实时数据进行分析统计,所以对于时间效率的要求不如一般查询统计那么高,这就确保了开发处于不同物理位置数据源的虚拟DWBW具有可行性。同时,对于一般性的查询比对等基本操作,不会影响其工作效率和准确性。
基于Web面向用户的综合平台的开发设计。此平台主要提供一个用户操作的平台,除了集成基因比对、功能预测、序列分析、基因提交等传统的操作以外,还允许用户对虚拟数据仓库中的数据运用数据挖掘技术,提供更多的分析支持工具。
四、结语
DWBW与传统的数据仓库概念特征相比,两者都是对海量的、复杂数据进行处理;能在解决不明确问题过程中显示很强的能力;面向数据分析,把辅助决策作为一个重要的最终目标。DWBW还具有几个特性:实时性要求较强;与一般的数据仓库相比对单个记录的准确性要求更高;数据仓库不是物理存在的,而是通过互联网络将多个数据库连接在一起,共同发挥作用的虚拟数据仓库。
【关键词】计算机应用;人工智能;生物信息学;数据挖掘技术
【中图分类号】TP391
【文献标识码】A
【文章编号】1672—5158(2012)10-0078-01
一、生物信息数据库的现状及问题
在生物信息学的发展过程中,逐步建立起了大量基于网络的生物数据库,而且开发了众多检索工具,从而实现了生物信息数据的智能处理和综合分析。生物信息数据在具有增长迅猛、更新及时、种类繁多等特点的同时,更表现出高度的复杂性、多样性和不一致性。
随着生物信息数据量的激增以及数据处理能力的复杂程度不断提高,现有的生物信息数据库已经逐渐暴露出许多问题。三大核酸数据库依靠传统方式交换数据,无法及时反应出其他专用生物信息数据库的变化情况以及非核酸类数据信息。网上所提供的大部分数据分析工具采用面向问题的搜索方法,搜索效率随着问题规模的扩大而降低,并且无法智能地对数据中存在的未知知识进行发掘。为此,在后基因组时代,需要将数据仓库思想及智能数据挖掘技术运用到生物信息学领域中。
二、基于生物信息数据仓库的数据挖掘技术
(一) 生物信息数据库中的算法工具
在生物信息学中,基因比对是最常用和最经典的研究手段。在核酸序列或蛋白质序列之间进行两两比对,比较两个序列之间的相似区域和保守性位点,寻找二者的相似形、同源性,进而探寻可能的分子进化关系,揭示序列中蕴涵的结构、功能等信息。数据挖掘主要存在以下几种经典分析模式:关联模式分析、序列模式分析、分类分析、聚类分析,其中关联模式分析应用最为广泛。
(二) OLAP和数据挖掘技术
传统的针对数据库的开发工具多为联机事物处理模式,它主要是面向具体的查询和统计,有着较为具体的应用目的。然而随着越来越多数据库的出现,数据量的迅猛增长,OLTP在数据资源的充分利用、为用户提供有效支持和帮助等方面,则显得力不从心。因此,基于数据仓库的联机分析处理以及数据挖掘引起了日益广泛的关注和应用。OLAP是一种自上而下、不断深入的分析工具。用户提出问题或假设,OLAP则负责从上而下深入地提取出关于该问题的详细信息,并以可视化的方式呈现给用户。DM是一种决策支持过程和挖掘性工具,它主要基于人工智能、机器学习、统计学等技术,高度自动化地对原始数据进行分析,发现隐藏在数据中的模式,做出归纳性和预测性的推理。
(三) 基于生物信息数据仓库的数据挖掘技术
实现数据挖掘的前提条件是必须具有海量数据,而这恰恰是数据仓库的基本特点之一,二者紧密结合可以有效解决大量应用中出现的问题。在生物信息学领域,使用数据挖掘技术可以大幅提高研究人员的工作效率,改变原有的预测法;数据挖掘算法还可以结合生物信息专业领域的公式算法,根据研究人员的设想,对数据进行全面高效的分析。
基于数据挖掘等技术发展起来的智能决策技术具备了在生物信息学领域中大展身手的天赋,特别是基于海量数据的数据挖掘和开采技术更具有广泛的需求和应用背景。另一方面,目前生物信息学的研究方法和发展情况,已经形成了较为完善的智能决策系统,成为数据仓库和数据开采较为成功的应用案例。另外,现有各种生物信息应用分析软件从一定程度上讲,已经反映并且实现了数据仓库及数据挖掘的思想和技术。
三、实现生物信息异地多源数据库的综合利用
(一) 建立基于Web的生物信息数据仓库
基于现有的生物信息数据库,运用数据仓库思想,利用OLAP和数据挖掘技术,建立生物信息数据仓库,是一种不需要大幅增加硬件设备以及物理装置的前提下,实现基于Web平台的生物信息集成与处理平台的可行方案。设计一个基于Web的生物信息数据仓库,其主要结构由五部分组成:外部数据源;基于Web的数据调度、传输;数据的变形整合;元数据规则、元数据管理;基于Web的综合管理平台。
DWBW以DDBJ/EMBI/GeneBank作为主要数据源,同时以其他主要的生物信息数据库作为整个数据仓库的基本数据源。通过分析数据库结构和数据结构类型,建立DWBW的元数据规则。这样,基于上述各种数据库就可以建立起一个基于Web的虚拟数据仓库,由于不存在一个物理上位于某地的存储中心来保存这些数据,用户面对的只是基于网络的分布式虚拟的数据仓库。其模型、算法的运行由专用的分析工具服务器来完成,而对于数据的调用和整理都是在源数据库上进行的,根据不同用户提交问题的不同,具体分析过程则由分配服务器交给服务器去完成分析,只是最终将结果返回请求分类服务器,显示给用户。
DWBW将通过统一的基于Web的页面与用户进行交互,在后台则主要由请求分类服务器、Web服务器及专用分析工具服务器共同完成对问题的提交和分析,实现对数据仓库元数据规则的理解,然后根据分类的结果,与相关分析工具进行匹配,将问题提交到相应的分析工具服务器进行处理。处理完成后返回给请求分类服务器,进而返回给提交问题的用户。
(二) DWBW的关键技术
生物信息学元数据的抽取。数据的整理和抽取,是开发所有数据仓库时所遇到的最难解决也是最具挑战性的问题之一。将不同时期生成的大量历史数据中的数据结构、字段的定义以及对象之间的关系等一系列的描述信息整理出来,并制定一套通用可行的规范,本身就是一个工作量巨大、难度极高的问题。因此,数据仓库元数据的抽取整理,成为建立DWBW的关键问题。数据抽取、清洗、转换和装载过程与一般数据仓库建立过程中的数据整理不完全相同,其数据具有规范性强,存储结构相对简单,转换、装载容易等特点。
虚拟生物信息数据仓库的建立。虚拟生物信息数据仓库实现对生物信息平台相关数据的组织和集成,并且将不同主题的数据对象分别存储到各个数据集市中,同时还将建立起部分有价值数据的在线OLAP数据库。虚拟数据仓库采用中间件充当数据中心,提供信息的访问接口,对存贮在不同数据源的生物信息数据进行存取操作。由于虚拟生物信息数据仓库一般不是针对实时数据进行分析统计,所以对于时间效率的要求不如一般查询统计那么高,这就确保了开发处于不同物理位置数据源的虚拟DWBW具有可行性。同时,对于一般性的查询比对等基本操作,不会影响其工作效率和准确性。
基于Web面向用户的综合平台的开发设计。此平台主要提供一个用户操作的平台,除了集成基因比对、功能预测、序列分析、基因提交等传统的操作以外,还允许用户对虚拟数据仓库中的数据运用数据挖掘技术,提供更多的分析支持工具。
四、结语
DWBW与传统的数据仓库概念特征相比,两者都是对海量的、复杂数据进行处理;能在解决不明确问题过程中显示很强的能力;面向数据分析,把辅助决策作为一个重要的最终目标。DWBW还具有几个特性:实时性要求较强;与一般的数据仓库相比对单个记录的准确性要求更高;数据仓库不是物理存在的,而是通过互联网络将多个数据库连接在一起,共同发挥作用的虚拟数据仓库。