论文部分内容阅读
随着二代测序技术在生命科学研究领域的广泛应用,生物学家们正面临生物大数据处理、分析的挑战,同时生物大数据也将成为生命科学领域创新的源泉,对这些数据创新性的管理和应用,将为生命科学及相关产业领域带来一次新的革命。高通量测序技术的发展,推动序列数据的迅速增长,普通实验室也可以达到PT级生物测序数据量,如此大规模的数据的有效存储、高效分析、共享利用,都是我们面对的难题,对高性能计算也提出了严峻的挑战。目前已测序的物种也只是一小部分而已,已完成测序的物种相关数据的分析也不深入。在算法优化、软件并行化、流程自动化、大规模数据存储、处理及深度分析等层面,有亟待的工作需要广泛开展。针对新一代测序数据量大、数据处理过程复杂、对计算资源要求高等特点,云计算提供了一种有效的解决途径,云架构下的平台搭建,存储、计算软件开发,工作流框架正在不断发展完善,并在未来的生物大数据分析、存储方面发挥着重要作用。Docker是PaaS提供商dotCloud提供的一款基于LXC (LinuX Contai-ners)开源项目。Docker目前在云计算领域迅速发展,包括dotCloud、Google Compute Engine和百度应用引擎(BAE),都使用了Docker。LXC是一种共享Kernel的操作系统级别的虚拟化解决方案,通过在执行时不重复加载内核,且虚拟容器(Container)与宿主机(Host)之间共享内核来加快启动速度和减少内存消耗。相比较传统的虚拟化,基于LXC的轻量虚拟化Docker可以做到启动快且占用资源少。因此,Docker是良好的构建云计算的架构,Docker正在给云计算带来一场革新,Docker可以灵活地封装软件,令其更快速地传播。Docker技术的实现意味着,如果在一台笔记本上编写了一个软件,可以将它移动到本地服务器或云服务器,而不需要做任务改变。这一直都是云计算的目标:互联网就是一台巨型计算机。生物大数据也具有数据量大(Volume)、数据多样化(Variety)、有价值(Value)、高速(Velocity)的“4V”大数据特点,Docker的便捷、高效的特点适应了生物大数据发展的需求,所以Docker生物云计算平台是应对生物大数据的最佳方案,本文Docker技术为基础进行了深入研究和探讨其在生物大数据分析方面的应用开发,并将开发的ubuntu14.04biodocker生物云计算平台应用于松材线虫的高通量测序数据个性化分析中,为分析、处理高通量测序产生的生物大数据提供一种方法和思路。研究内容如下:(1) Docker在Ubuntu操作系统中的安装及基本的Docker命令。(2) Docker中的数据管理及基本命令的探讨:数据存储及管理是Docker技术的一个重要内容,我们探讨了如何在容器中挂载主机的数据及如何创建数据容器等一些内容。(3)基于ubuntu-14.04-x8664. tar. gz模板,创建ubuntu14.04 biodocker基础镜像,由于一些分析软件依赖许多环境,所以我们选择的一个较完整的系统作为基础镜像。(4)基于ubuntu14.04biodocker基础镜像,我们深入探讨了使用三种方法在镜像中安装基因组,转录组,宏基因组等相关软件及处理原始数据的脚本,构建了ubuntu14.04biodocker生物云计算平台镜像。该生物云计算平台镜像可以快速、高效的移植到任何一台linux内核的操作系统平台,无论是单机、集群,谷歌或亚马逊的云服务。方便了高通量测序数据分析平台在不同硬件环境、不同操作系统之间的无缝迁移。可以让生物研究者把更多时间和精力集中在数据分析及探讨生物学问题上,而不必为这些软件安装及软件运行兼容性、环境依赖这些运维层面的技术而困扰,我们根据上述的镜像分别在个人电脑、厦门大学数据挖掘组的服务器上搭建了ubuntu14.04biodocker生物云计算平台进行了高通量测序数据的分析、挖掘。(5)利用平台我们基于松材线虫全基因组构建了全基因组分泌蛋白基因家族的基因序列、蛋白序列,并且进行了功能注释。结果表明,松材线虫有923个分泌蛋白基因,仅有93个基因得到注释,其余90%的分泌蛋白均为松材线虫所特有,值得我们更加关注和有待于更深入的研究。我们还对松材线虫基因组进行了SSR定位及引物开发,在松材线虫全基因组中搜索到12135个SSR,开发出1155个引物,我们又把这些信息转换成gff3格式文件,可以在基因组浏览器中更直观方便的观察这些SSR位置、类型、长度、引物等详细信息。(6)利用平台我们基于转录组的松材线虫、拟松材线虫分泌蛋白差异表达及分子进化研究。结果表明,松材线虫、拟松材线虫转录组共表达800个分泌蛋白,其中294个分泌蛋白为二者差异表达显著,并对这些蛋白进行了注释和分析。在松材线虫、拟松材线虫498个分泌蛋白同源基因中筛选出16个基因的Ka/Ks值显著大于1,并且达到了统计学上差异显著的水平,表明这些基因受到强烈的自然选择作用,为适应环境功能上发生了极显著的进化。(7)利用平台我们研究了基于转录组的松材线虫、拟松材线虫直系同源基因的研究及。结果表明,松材线虫、拟松材线虫与秀丽线虫、根结线虫同源基因及其差异表达,近缘物种上都得到的大量同源基因,为我们基因功能注释及研究提供可靠的信息,而在远缘物种拟南芥、毛果杨获得了同源基因为我们研究松材线虫与寄主植物的互作提供参考。(8)利用平台我们研究了基于宏基因组的松材线虫与其伴生菌的水平转移基因。结果表明,通过计算比较GC含量方法得到15个松材线虫与共生菌之间的水平转移基因,这些基因大部分都是具有重要生理生化功能,为研究松材线虫与其伴生菌协同进化提供了有力证据。