论文部分内容阅读
随着基因组研究的深入和生物信息学的发展,对基因调控信息的分析和研究引起人们越来越的重视.这就要求我们建立起一套能够广泛搜集信息,实现信息共享,对信息进行多种分析的研究机制.基于这样的需要,我们分析了国际生物分子数据库系统的发展状况,研究了像GenBank、Transfac、EPD、SCPD等知名数据库系统的实现机制,自主建立了基因调控信息集成数据库系统GRID.GRID能够搜集和存储多种调控信息,包括从DNA到RNA的转录过程以及从RNA到蛋白质的翻译过程中与基因调控相关的所有信息.具体到数据类型,主要是启动子区域数据、转录基因数据、转录因子数据、调控元件数据、保守序列数据、矩阵数据等调控信息数据以及基因表达数据.因为上述的各种数据在整个基因的转录以及翻译的调控过程中是有机结合的,所以还要注重各种数据之间的关系,几乎所有的调控信息数据之间都存在着紧密的联系,而且这种数据之间的关系是多重相关的,这也是我们数据库设计的难点.我们通过建立数据连接表的方式实现了这些复杂的关系,而且今后如果有新的数据关系出现,我们也能够轻松的实现.通过上述各种数据以及不同数据之间的关系,我们可以对整个基因转录以及翻译的过程进行研究,这也是我们提出"集成"概念的原因.GRID具有调控信息数据的存储、自动下载、动态更新等等数据服务功能,这些数据服务功能保证我们的数据能够和全世界基因研究相同步;同时,GRID也围绕整个基因转录和翻译过程为用户提供调控信息数据的查询信息可视化等用户服务功能.调控信息数据查询是GRID数据库最主要的功能,由于数据库中对数据关系的实现,我们可以把整个调控信息过程中的所有数据综合的提供给用户,而不是割裂、机械的显示某一种或者某几种数据;可视化设计则是更加直观的把调控信息数据呈现给研究者,研究者通过可视化单元看到的不再是枯燥的文本数据,而是整个基因调控过程的形象化表示.这些功能保证用户能够按照自己的要求通过多种途径快速、顺利的查找到自己需要的信息,并且可以方便的从一种信息数据得到在转录和翻译过程中牵涉到的其他所有的信息数据;将来我们还要在GRID系统的基础上从事更多的基因调控信息分析和数据挖掘等方面的工作.GRID数据系统是一个真正自主开发研制的基因调控信息数据库系统,它不是单纯的国外数据库的镜像,而是一个能够兼容不同数据,可以从不同数据源自动下载和更新数据的集成型数据库系统.它采用了先进的Oracle以及Java的相关技术,具有强大的性能以及广泛的跨平台能力;它友好的界面和良好的设计,能够真正的在数据库的层次上为用户提供不同数据间的关系查询,并且还具备一定的数据可视化和分析的能力.可以说,GRID真正的能够存储基因转录以及翻译的整个调控过程,并且为用户提供研究所需的所有材料.