论文部分内容阅读
DNA测序是现代生物学研究的重要手段,目前已为公共生物数据库积累了海量的数据资源,主要包括由Sanger测序产生的EST序列以及由下一代测序(NGS)产生的序列,这些信息被广泛应用于基因识别、基因表达以及注释基因组等科研领域。针对已有的大量EST数据以及NGS产生的高通量数据进行研究,开发出统一的数据分析工具,能够充分挖掘其中蕴含的生物信息,提高生物工作者的实验效率,从而促进利用新技术来解决重大生物学问题。本文首先提出了针对EST和NGS数据的综合处理框架,然后基于此框架构建了在线生物信息分析平台。目前,该平台主要研究了两类问题,即EST的模式分析和基于NGS的多聚腺苷化分析,以后可按照新的分析需求不断拓展功能模块。上述两类问题分析如下。
(1)基因组注释与基因表达等应用的成功很大程度上依赖于EST序列的质量。然而,一些GenBank EST却被证明是不准确的,给下游应用造成了不利影响。识别原始EST中的cDNA终端及其结构不仅有利于控制EST数据质量,而且可以准确描绘转录本末端。为了能够产生更准确和更可靠的EST数据,本文基于cDNA的终端模式分析对松树的原始EST数据进行了处理,可以提高识别和提取真实cDNA插入片段的准确率,有利于基因组注释和基因结构预测等基于EST的下游应用。
(2)随着NGS的发展,许多研究表明选择性多聚腺苷化在基因组中广泛存在。多聚腺苷化(Polyadenylation,poly(A))是基因表达调控的重要途径,对细胞中mRNA的生命周期起决定作用。分析不同类型的poly(A)位点及其表达差异,将有利于深入理解基因表达调控,促进调控真核生物mRNA多聚腺苷化过程的分子、生物及进化机制的研究。本文针对来自拟南芥不同组织的NGS数据,对poly(A)信息进行标准化,综合分析了不同条件下多聚腺苷化的相关问题,包括poly(A)位点分布研究、APA组织特异性分析以及识别差异表达基因。
本文最后给出了在线生物信息分析平台的技术实现方案,该设计基于GWT工具包(Smart GWT),结合Spring、Hibernate框架,应用MVP设计模式,完成Web平台的开发。针对平台的多层架构给与了实现,其中接口层基于GWT-RPC,通过ErraiBus框架,实现远程数据交互。持久层基于Hibernate,并结合最新的Gilead技术给予实现。业务逻辑层提供了EST模式分析和poly(A)综合分析的逻辑实现。基础设施层设计了适配器组件并对外提供数据访问接口。