论文部分内容阅读
生物信息学的发展提出了很多计算问题,通过计算方法预测基因的转录调控模体是其中之一。模体(motif)是一组短片段,通常只有8-12个字符的长度。因为具有生物功能,所以相对于生物序列的其他部分不易改变。它具有序列保守性,可以在序列上识别。依据所研究的生物序列不同,模体可分为DNA模体,蛋白质模体和结构模体,本文工作主要是研究载有基因转录调控功能的DNA模体。它可以帮助生命科学研究者了解基因转录的调控机制,为药物和生物工程等多个领域做出贡献,为计算科学的研究者提供了研究热点。传统的转录模体预测问题是多序列比对的NP复杂问题,之前的预测算法大都基于启发式学习方法,实际运用的假阳性率较高。很多生物信息工具需要较低假阳性率,才能在生物研究中被有效使用。实验组之前开发的BoBro模体识别算法[46]可以有效解决这一问题,它通过模体信号之间的相互支持,在数据处理内部降低其他“噪音”影响的同时保证了预测的识别率。目前主流的模体识别算法(如meme[39])都实现了在线服务。为了推广该方法,本人的研究工作就是以此算法为基础,通过增加结果分析功能,在高性能集群上设计实现了web服务平台DMINDA(http://csbl.bmb.uga.edu/DMINDA/)。DMINDA的主要贡献在于:(1)对于给定查找到的一组调控序列和相应的对照序列,可以计算得到统计打分以及对应的统计显著p-value;(2)除了实现BoBro算法[46]对模体的预测,还对预测结果的进一步分析提供了模体扫描、比较、共作用分析等功能;(3)服务还实现了同DOOR原核生物操纵子数据库的链接,利用操纵子信息提取调控序列,结合生物系统发生关系准备数据。设计DMINDA系统除了具有实际软件开发能力,还需要了解相关研究的领域的知识,才能了解用户的切实需求。生物信息学研究领域开发了很多工具没有充分发挥其应有价值,结合实际需要利用web开发技术制作出有实用意义的在线服务,可以推广这些方法。科学研究成果通过web技术向广大科研使用者推广是计算机应用领域的重要研究方向,有人将之称为科学2.0。DMINDA在实验组之前工作的基础上,增加了后续分析工作的研究工具,通过对核心算法的重编程和再组织,实现了在150节点高性能计算集群的部署。利用DataTables等Jquery工具,设计了界面友好的操作页面。以该平台为基础,继续开发了基于生物系统发生关系的MP3模体预测算法和在全基因组预测调控子的方法,目前正在投稿。利用web服务推广科研成果,可以提高论文发表层次,增加论文的引用次数,它可以成为一系列后续研究的平台。本文回顾了模体的预测及其相关研究,介绍了DMINDA系统的设计、开发与运行。