肺炎克雷伯菌全基因组中菌株特有区域的分析

来源 :上海交通大学 | 被引量 : 0次 | 上传用户:guoyuan22
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
本研究通过在高性能计算机群上重构和更新细菌基因组序列比对工具mGenomeSubtractor,对48株已全测序的肺炎克雷伯菌基因组进行了亲缘菌之间及和人类微生物基因组计划序列的比较分析,识别了肺炎克雷伯菌中菌株特有区域及其携带的耐药和致病基因。首先,本论文在实验室曙光机群上重构和更新了细菌基因组差减杂交模拟工具mGS,并提供对外在线服务,以满足单个细菌基因组序列(2-10Mb级别)和人类微生物基因组计划宏基因组序列(1-10Gb级别)的快速比对需求。亲缘菌的基因组差减杂交模拟工具mGS可以对细菌基因组岛等菌株特有区域进行快速识别。为了提高该工具的计算能力使其可以完成人类微生物组的宏基因组序列比对工作,我们对程序代码进行了升级,主要包括两方面的技术更新:(a)在后台比对数据库方面,本文主要用到了人类微生物组计划(HMP)数据,包括健康人群的参照基因组(Reference Genome Data,HMP-RGD)数据和宏基因组鸟枪法测序(Metagenomic Shotgun Sequence,HMP-MSS)数据。本论文将HMP-RGD和HMP-MSS整合到mGS的后台比对数据库中以实现单个细菌基因组序列和HMP-RGD/HMP-MSS的比较分析。(b)在计算速度方面,针对计算节点(胖节点)CPU运算核数多、内存大的特点制定并行策略。通过对需要比对的细菌基因组序列进行均匀分割,使得每一段较小的序列启动单独的比对进程。这个过程中每一个比对进程都彼此不相关,所以可以将其并行执行,从理论上讲其加速效果是所用到的进程数的倍数。这种加速策略的意义在于,将mGS中最耗费时间的比对过程完全转化为对于胖节点服务器硬件的依赖。因此具有良好的可扩展性,即使在遇到计算速度瓶颈时,机群维护者只需要增加新的计算节点就可以增加相应的并行过程。此外,mGS在管理节点上通过任务管理引入了作业调度系统,避免了多个用户同时提交任务时造成的系统崩溃问题;作业调度系统指定计算节点运行占用CPU和内存较大的计算部分;再由监控脚本程序将监控是否每一个进程都成功执行,并最后汇总成结果文件,可视化输出到用户端浏览器界面上。在大数据的时代,面对海量微生物序列的大数据分析需求,类似本论文提出的mGS可扩展性并行计算策略将提供有效的解决方案之一。其次,本论文以工业生产菌肺炎克雷伯菌KCTC 2242全基因组序列为例,利用mGS对该菌株特有区域株进行了详细分析。从以下两个不同数据规模的比对库上进行了mGS分析。(i)种内亲缘菌分析:本文中利用GenBank中目前收录的已完全测序的48个肺炎克雷伯菌株,去除了肺炎克雷伯菌KCTC 2242的两个复制子(一条染色体和一个质粒),余下的182个复制子DNA序列建立比对库,肺炎克雷伯菌KCTC2242通过与其比对,得到肺炎克雷伯菌KCTC 2242在肺炎克雷伯菌种间的维度上所特有的基因序列。(ii)选用HMP-RGD为比对库,其中包含了11.9GB的1391个菌株基因组数据。将肺炎克雷伯菌KCTC2242基因组序列与两个比对库进行比对,得到肺炎克雷伯菌KCTC2242在健康人类微生物组的维度上所特有的基因序列。最后,本论文利用mGS进一步对另外47株完全测序的肺炎克雷伯菌进行基因组特有区域分析。对特有区域基因分析发现,大部分属于prophage,整合性接合元件,IS元件和噬菌体蛋白等外源DNA序列。识别了这些肺炎克雷伯菌菌株共同拥有的、每个菌株单独的耐药和致病基因,以及这些基因附近的IS元件。这些数据将有助于从基因组序列水平来评估菌株的抗生素抗性和致病性的潜在风险。
其他文献
~~
会议
支持向量机(Support Vector Machine,SVM)是Vapnik等人提出的一种以统计学习理论为基础、以解决有限样本为目标的机器学习新方法,因其泛化能力强等特点而广泛使用.通过转化SVM的目标函数、优化等式约束,可将其简化为最小二乘支持向量机(Least Squares SVM,LSSVM).这一改进有效的降低了计算复杂度,但是LSSVM使得几乎所有的样本点都作为支持向量参与计算,解
目的:了解本科护生学业拖延现状,明确本科护生情绪智力、心理韧性与学业拖延在一般资料上的差异;分析本科护生情绪智力、心理韧性与学业拖延之间的关系,构建情绪智力、心理韧性与学业拖延之间作用关系的结构方程模型。探讨心理韧性在情绪智力和学业拖延间的中介效应,从而为制定针对性干预策略,降低本科护生学业拖延水平提供对策。方法:本研究为非实验性研究中的相关性研究,研究工具运用一般资料调查问卷、《学业拖延量表》、
中国经济转入高质量发展阶段,作为东部沿海经济大省的山东,在新旧动能转换的道路上已经全面提速。随着全球经济一体化趋势不断加强,我国区域经济高速增长,以港城联动为代表的
目的:有文献证实世界范围内来看,胃癌在恶性肿瘤中发病率位列第五,致死性则位列第三。在我国则略有不同,其发病率在男性患者中仅次于肺癌,排在第二位,在女性患者中仅次于乳腺癌和肺癌,排在第三位,综合来看其致死性排在第二位。胃癌是由多种因素包括感染、年龄、性别、饮食、地域、生活方式等共同作用,多基因相互调控,多步骤共同参与的缓慢过程,目前为止其发生发展的分子机制尚未完全探明,其调控机制的异常复杂进一步增加
大隐静脉(GSV)是常用的冠状动脉搭桥手术的代替血管,对其弹性的研究有助于适用于冠状动脉搭桥手术的人造血管的开发。已有研究主要考查大隐静脉血管轴向和环向两个方向的力学
数字传播技术的高速发展,让媒介环境发生了巨大变化。在这个过程中,以“沟通”为核心的公共关系行业率先感受到“春江水暖”的环境变化,不少企业积极调整自身商业模式对其进行适应。蓝色光标作为其中一员,逐渐发展成为中国排名第一的本土公关公司与营销机构。本研究借助扎根理论对蓝色光标商业模式创新展开分析。在研究过程中,笔者首先通过对文献的梳理,了解当前学界对蓝色光标企业发展的研究现状和商业模式理论的研究现状。接
近年来,随着国家对“三农”问题高度重视,农业呈现出稳步发展态势,但我们也应看到,当前农业发展面临许多问题与挑战,例如:耕地资源有效保护程度不够、耕地质量明显下降、种植
促进南疆地区农业结构调整,加快转变农业发展方式,构建南疆现代农业产业体系,是全面建设小康社会,持续增加农民收入,不断改善农村民生,促进新疆区域经济协调发展,维护社会稳
随着大众传媒的不断发展以及企业经营发展的需求,企业通过各种媒介进行宣传的意识也在不断增强。科技的发展改变了大众的阅读习惯,手机阅读成为当代大部分人的主要阅读渠道。近年来各大中外企业纷纷通过微信公众号平台发布各种信息,吸引读者关注。这些企业中,除了大众熟悉的面向消费者的企业之外,还有一类企业,它们提供商品或服务的对象并非终端市场的个人普通消费者,而是企业,如产业链下游企业、经销商或其他有需求的企业。