论文部分内容阅读
随着DNA测序、质谱测序等高通量技术的快速发展,生命科学领域进入了以海量多元组学数据为特征的大数据时代。组学大数据给生命科学研究带来了前所未有的机遇,在研究基因功能、疾病机制、精准医疗等方面具有重要意义。面向组学大数据的生物信息学研究,有助于快速有效地挖掘组学大数据中蕴含的生物学知识。大数据具有规模性、多样性、高速性等三个特征,给传统生物信息学带来了新的挑战。在数据计算方面,亟需解决中小实验室对计算资源的弹性需求;在数据分析方面,亟需多组学整合分析体系解决生物学问题。缺乏相应的生物信息学工具是大数据时代生命科学领域面临的主要瓶颈。本论文主要目的即在于使用数据计算技术和数据分析技术解决组学大数据分析中存在的上述问题。在数据计算技术研究方面,本文重点关注云计算技术解决若干蛋白质组大数据问题。亚马逊网络服务(AWS,Amazon Web Service)采用现收现付(pay as you go)的计费模式,提供弹性计算云(EC2,Elastic Compute Cloud)和简单存储服务(S3,Simple Storage Service)等多种云服务,使得用户通过互联网即可按需获取计算和存储资源,可有效解决组学大数据对计算资源的弹性需求。MapReduce框架将任务的处理过程划分成Map和Reduce两个阶段:Map阶段将输入数据切割成数据分块,以键值对的形式分配到计算节点上的Map函数并行分析处理,Map函数的输出同样以键值对的形式保存在各自的计算节点上;Reduce阶段负责将所有的中间结果根据键值进行合并,然后生成最终结果。MapReduce框架简化了分布式计算的编程模型。针对海量串联质谱数据带来的计算复杂度问题,本文使用云计算技术解决鉴定新肽段、单氨基酸变异肽段以及外显子跳跃剪接肽段等基于串联质谱的蛋白质组大数据问题。本文采用串联质谱数据结合蛋白质基因组学的方法,构建了全基因组六框翻译氨基酸的序列数据库、错义突变的氨基酸序列数据库以及外显子跳跃剪接的氨基酸序列数据库,使用基于MapReduce框架的数据库搜索算法加快基于串联质谱的肽段鉴定过程,使用Target-Decoy搜索策略对肽段鉴定结果进行质量控制。本文构建了基于云计算技术的蛋白质组大数据分析和呈现平台CAPER 3。CAPER 3使用AWS和MapReduce框架实现了数据处理流程的可扩展性。CAPER 3具有两个主要组件,分别是远程工作包(rwp,remoteworkpackage)和本地工作包(lwp,localworkpackage)。rwp部署在aws上,处理运行在云端的任务。lwp是基于java的图形客户端,具有数据传输、任务配置、进度监控以及结果展示等功能。lwp使得用户不需要专业知识即可在处理数据时获得aws提供的弹性计算能力。caper3在鉴定新肽段、已知单氨基酸变异肽段、样本特异的单氨基酸变异肽段、以及外显子跳跃剪接肽段等蛋白质组大数据问题上,加快了数据处理速度,并且从蛋白质层次上提供基因或者变异的证据,可为未来研究提供重要线索。caerp3的源代码可通过https://github.com/ys-amms/capercloud获取,使用说明详见http://prodigy.bprc.ac.cn/caper3。在数据分析技术研究方面,本文重点关注建立基于生物学网络的多组学整合分析体系。单一组学数据的分析往往具有局限性。高通量测序技术产生了多平台的组学数据,揭示了细胞中分子的静态和动态信息,而细胞中不同分子之间相互通信形成了复杂的生物学网络。考虑不同组学数据之间的关联,有利于对候选疾病基因进行筛选和排序。驱动基因鉴定问题是生物信息学中一个重要的研究领域。本文首先搜集整理了最新的癌症相关突变数据集,使用特征分析发现癌症相关突变与中性突变在基于pam250和基于香农信息熵的序列特征上存在显著差异。在生物学网络层次,本文提出一种通路算法用于解决驱动基因鉴定问题。基于通路的算法假设通路上游的驱动基因经信号转导过程导致下游转录因子过表达,转录因子过表达导致其靶基因显著过表达,进而引发癌症;而基于蛋白质功能关联网络(pfin,proteinfunctionalinteractionnetwork)的算法假设癌症驱动基因的网络邻居存在更多差异表达基因。本文研发了基于生物学网络的癌症驱动基因鉴定工具bionexr。bionexr是一个r包,由四个功能模块组成,分别是“数据下载与解析”、“基因分析”、“网络分析”和“可视化”。为了方便获取tcga数据,“数据下载与解析”模块提供tcgalevel-3基因体系突变数据和基因表达数据的下载,查看下载进度和断点续传功能。对于基因体系突变数据,“基因分析”模块计算突变对基因功能的影响。对于基因表达数据,“基因分析”模块计算基因在肿瘤样本和正常样本中的表达倍数变化。“网络分析”模块集成了基于kegg通路和基于pfin的分析算法。对于基于kegg通路分析流程的鉴定结果,“可视化”模块以具有三级层次(分别是突变基因、转录因子和靶基因)的有向图呈现;对于基于pfin分析流程的鉴定结果,“可视化”模块以无向图呈现。四个模块既相互独立,又可以串联在一起,构成鉴定癌症驱动基因的数据分析流程。“基因分析”和“网络分析”组成的分析流程使得bionexr在鉴定癌症驱动基因时既考察核酸层次的信息,又考察生物学网络层次的信息。使用Bionexr对TCGA中的多种癌症,如头和颈部鳞状细胞癌、乳腺癌、肾癌和子宫内膜癌,进行数据分析,发现了潜在的癌症驱动基因或通路,分析结果提供丰富的信息。Bionexr的源代码及使用说明可通过https://github.com/ys-amms/bionexr获取。组学大数据的知识挖掘是当前生物信息学的重要机遇和挑战。云计算技术和生物学网络有助于快速有效地挖掘组学大数据中蕴含的生物学知识。未来研究中,我们将考虑组学数据与文献知识结合,为面向组学大数据的生物信息学研究提供新的思路。