论文部分内容阅读
生物信息学是20世纪末随着生物技术的提高和生物学数据的积累而发展起来的一个新的领域,是一门利用计算机工具和技术对生物系统的问题和规律进行研究的学科。目前,生物信息学主要体现在分子生物学与信息技术的结合,其研究重点主要体现在基因组学和蛋白质组学两方面。伴随着自然界和物种的进化过程,作为生命基本物质的蛋白质也处于不断的进化中,插入/缺失(Indel)是最普遍的蛋白质序列变异的方式之一。近来的研究显示,蛋白质结构中出现的插入/缺失能够对其侧翼邻近区域产生影响,这一现象可能在分子进化中具有重要的作用,因此,蛋白质的插入/缺失已经成为分子生物领域的重要研究对象。基于Gridsphere创建的蛋白质插入/缺失及其侧翼区域数据库(简称IndelFR, http://indel.bioinfo.sdu.edu.cn)是一个免费的Web资源,提供了已知蛋白质结构中的Indel及其侧翼区域的序列和结构信息。这些Indel是通过蛋白质结构分类数据库(SCOP)超家族中同源结构间的两两比对获取的。IndelFR数据库中包含2925017个带有侧翼区域的Indel,它们提取自1053个超家族中12573个非冗余结构域间的373402对结构比对。所有的结构比对信息和Indel信息都是以文件作为最初形式并按照一定的分类规则进行保存,为了便于检索、统计和分析,这些信息中的关键内容被提取出来,并以数据库的形式进行存储。为了便于用户访问,本文设计和提供了使用Web方式进行数据库检索的功能,并提供了基本检索、高级检索、通用名检索、ID检索、模糊检索和位置检索等多种检索方式。此外,系统还包含了按照蛋白质结构分类数据库中的蛋白质分类信息进行比对和Indel浏览的SCOP目录树,Indel在线生成的功能也以Web应用的方式集成到平台中,系统还包含了一个[ndel数据集的批量下载的页面。插入/缺失(Indel)是数据库中的核心信息,通过蛋白质插入/缺失及其侧翼区域数据库,用户可以查询到Indel及其侧翼区域的氨基酸序列、长度、位置、二级结构组成、亲疏水性、结构域信息、三维结构等,以及Indel所在比对文件的相关信息。IndelFR数据库资源为生命科学领域的科研工作提供了很多便利,通过数据库可以高效地进行各种数据查询和筛选,获得有价值的统计信息,并用于分析和总结各种生物学性质和规律。IndelFR数据库最近已被用于分析蛋白质结构进化的意义,未来将有助于促进更多的针对蛋白质的插入/缺失及其侧翼区域的功能性研究。