蛋白质组质谱大数据的并行处理技术研究

来源 :湖南大学 | 被引量 : 0次 | 上传用户:WarmAir1982
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,串联质谱技术以其高灵敏度和高精度等优势成为了研究蛋白质组的关键技术之一。串联质谱数据承载着蛋白质及肽段的信息,对其处理分析不仅是计算蛋白质组研究中尤为关键的一步,也是后续生物蛋白质结构功能等分析的基本保障。然而,质谱数据分析在计算时间与计算规模上遭受了新的挑战,其主要有以下三个原因:一是随着质谱技术的高速发展,质谱数据集的规模呈爆炸式的指数增长,匹配海量的质谱数据成为了蛋白质组学的一个难题;二是蛋白质肽段测序条件变得更加苛刻,如半无限或酶无约束搜索、多个翻译后修饰等的加入考虑;三是蛋白质中央数据库存储与更新质谱数据时通常需要对大量的质谱数据进行二次分析。
  如何高效、准确地从海量质谱数据中解析出肽段序列信息,是当前计算蛋白质组学所面临的最大挑战。本文致力于研究大规模质谱数据在多种高性能计算平台上的并行处理算法。本文的主要工作和创新点概括如下:
  (1)提出了一个基于分布式计算框架Hadoop上的从头测序并行算法。现有的从头测序方法均为串行执行算法,无法在合理的时间内处理大规模的质谱数据。而Hadoop是开源的分布式计算框架,已广泛应用于学术界和工业界,其文件系统HDFS在负载均衡方面具有很强的优势。为此,本文提出了一个基于Hadoop的并行从头测序算法,该方法采用了一个创新的数据集自动分割方法和数据分发的动态平衡策略,使得质谱数据的处理速度更为高效。同时,通过充分利用Hadoop的高容错性,保证了从头测序结果的正确性。基于该方法,开发了新的从头测序软件MRUniNovo。使用3个不同来源的数据集对MRUniNovo进行了测试,并与串行的UniNovo算法进行比较分析。结果显示,MRUniNovo在保持结果精度不变的前提下具有更快的质谱数据处理速度。
  (2)提出了一个基于国产众核处理器SW26010的大规模从头测序算法。蛋白质组学中高通量质谱实验产生了海量的质谱大数据集。然而,由于数据规模过大、普通电脑内存有限等原因,现有的从头测序方法无法对大规模的质谱数据集进行有效的测序分析。一个有效的解决方案是使用最新的高性能异构架构来加快质谱数据处理速度。本文提出了一个基于SW26010众核处理器的高效从头测序方法SWPepNovo。该方法使用一个创新的并行肽段质谱匹配(PSMs)算法,并采用了两级并行机制和三个优化策略来克服并行PSMs算法中存在的计算密集和内存受限等瓶颈。在大规模数据集的实验中,SWPepNovo在具有一个SW26010众核处理器的节点上获得了高达282个/秒的测序速度,比现有算法PepNovo+快了近25倍。
  (3)提出了一个基于IntelMIC众核架构的蛋白质数据库并行搜索算法。基于串联质谱的鸟枪法测序中,蛋白质数据库搜索是一个被广泛认可和采用的二级质谱数据分析方法。然而,质谱数据的急剧增加给现有的数据库搜索方法带来了巨大的计算挑战。为了能够让科研人员在可接受的计算时间内完成大规模质谱数据的搜索分析,本文首先提出了一个新的并行质谱点积乘评分算法(MIC-SDP)来加速蛋白质数据搜索,然后基于该方法开发了蛋白质数据库并行搜索软件MCtandem。为了充分利用MIC众核的计算资源来提高搜索的性能,MCtandem使用MPI+OpenMP混合编程实现,并采用了动态任务调度、通信覆盖以及向量化等优化措施。通过使用不同的数据集对MCtandem的加速性能进行了评估,相比于其他基于GPU的并行数据库搜索方法,MCtandem在测序速度和大规模数据处理方面均获得了更显著的性能。
  (4)提出了一个基于众核架构SW26010的大规模蛋白质数据库搜索算法。随着质谱技术的不断进步,大规模质谱数据分析在蛋白质组学研究中越来越常见。然而,现有的蛋白质数据库搜索方法都缺乏对大规模质谱数据集的支持,即无法在可接受时间内对大规模的数据集进行搜索分析。为此,本文通过研究SW26010的特点提出了一个可高效处理大规模质谱数据集的并行搜索方法。基于该方法开发了新的蛋白质数据库搜索软件SW-Tandem。SW-Tandem采用了一个高效的结构化质谱数据转化方法和一个高度可扩展性的MPE间通信方案来克服内存带宽瓶颈。相对于在单个4核CPU上执行的X!Tandem的多线程并行版本,SW-Tandem在具有单个SW26010节点上即可获得高达41倍的加速比。大规模数据集的测试结果显示,SW-Tandem可在合理的时间内处理高达12GB的质谱数据。
  本文工作不仅具有一定的理论价值,丰富了高性能计算与蛋白质组学方面的研究内容,而且推动了蛋白质组分析的实用化进程,具有较大的应用价值和实际意义。
其他文献
在全球环境问题和能源危机的背景下,国务院针对汽车行业颁布《中国制造2025》,对汽车的油耗提出严格的要求。微混合动力汽车凭借其对传统汽车改动小、成本低、易批量化生产、节能减排等优点具有很好的应用前景和研究价值。本文将对微混合皮带驱动启动发电(Belt-driven Starter Generator BSG)系统中的BSG电机进行磁场设计研究。  本文针对爪极混合励磁BSG电机初始设计方案中气隙磁
学位
自励异步发电机(self-excited inducti on generator,SEIG)具有结构可靠,维护成本低,不存在高温易退磁风险等优点,使得SEIG在海岛、舰船、航空、钻井平台等独立式发电系统中得到了广泛应用。随着国内外风能、水能与海洋能等分布式发电系统的高速发展,SEIG作为新能源发电系统的有机组成部分,其相关稳定性边界与本质机理等问题需要进一步展开分析与研究。  建立有效的自励异步
自21世纪以来,磁性材料在电气工程领域的应用越来越普遍,并且与信息技术、国防技术和国民经济的各个方面密切相关。其中,超微晶合金与传统磁性材料相比,具备更高的饱和磁通密度、更高的磁导率以及更低的高频损耗等特点。超微晶合金因这些良好的电学和磁学性能,在电力设备的应用等方面拥有巨大的潜力。所以,研究它的磁特性有着十分重要的意义。本文对超微晶合金和软磁复合材料进行了一维高频磁特性测量实验,分析了这两种材料
随着时代的发展,人们的生活方式发生了深刻变革。符合社会需求的高铁列车、新能源汽车以及飞轮储能等一系列新时代产物登上了历史舞台,而异步电机在其中扮演了至关重要的角色。异步电机因其结构简单,成本低廉,运行可靠耐用,维修方便等优点,成为应用最广泛的电机。本文从异步电机稳态模型入手,提出一种新的异步电机弱磁控制策略,简化异步电机弱磁控制思路,提高控制精度并针对电机带载能力和效率优化进行深入设计,并依据滑模
菊科紫菀属植物紫菀(Aster tataricus L.)干燥的根和根茎为常用中药材,别名青菀、还魂草等,具有润肺化痰、止咳痰之功效,主治痰多喘咳、新久咳嗽、劳嗽咳血等症。紫菀属化学成分丰富主要为萜类及其苷,其中三萜皂苷是本属主要特征性成分,环肽是该属特色化学成分,至今菊科环肽仅在该种发现。我们对紫菀进行了系统的化学成分研究,从中分离鉴定了19个环肽化合物,其中2个新骨架环肽tataricin A
基于脑-机接口(Brain computer interface, BCI)的稳态视觉诱发电位(Steady state visual evoked potential, SSVEP)在康复医疗、智能车、娱乐、军事和智能家居等领域有着很广泛的应用。上述系统的人机交互效率与被试的分类准确率密切相关,然而被试的个体脑结构差异、疲劳状态等因素均会导致被试的分类准确率降低,从而影响BCI系统的性能。为了提
长江三峡钢丝绳全平衡垂直升船机是保证航道畅通的一个重要的组成部分,该文建立了三峡升船机电力拖动部分的动态数学模型,并根据离散相似原理将数学模型转化为仿真模型:对系统参数进行了整定;用VisualC++编制了仿真程序,对系统的正常工况,事故工况,各种扰动等多种工况进行了仿真,并对结果进行了分析和总结,为三峡升船机电力拖动部分的设计和方案调整提出了自己的观点和看法.该文提出了一种对存在多电机耦合的矢量
学位
马铃薯产量高、种植广泛,是世界第四大粮食作物,在我国农业生产中占有重要地位。作为马铃薯的常见病害,早疫病和晚疫病严重制约了粮食产量的提高,严重影响粮食安全。因此研究马铃薯早疫病和晚疫病的快速准确检测对于实际农业生产有重要的意义。  传统判断农作物病害的方法主要有两种:一种方法是采用知识图谱的方式来判断病害,通过对比病害图谱来判断病害,该类方法的局限性在于准确率低且准确率和经验有关;另一种方法是基于
学位
异构网络中包含丰富的生物信息,包括药物和疾病的特征和药物和疾病之间的连接性等,这些信息可以用于预测药物和疾病之间的关系,因此整合异构网络信息是当前计算药物重定位研究的热点。网络表示学习是将网络中每个节点表示成低维特征,从而提高药物再定位的预测能力。综合这些信息,本文的主要工作如下:  本文提出了一种基于网络表示学习的药物重定位预测方法。从疾病和药物的异构网络中,通过基于跳图的网络表示模型以无监督的
随着深度学习技术的快速发展,关于模式识别的许多应用已经获得了相当大的改进。从对象检测和图像生成到重组文章和生成诗歌,应用场景变化很大。文本识别问题也是由深度学习算法完成学习辨别表示的一个很好的例子。  字符级别的文本识别可分为打印和手写字符识别。自动识别医疗表格和处理其他类型的文件,例如行政,邮政分拣自动化和银行支票识别,都是手写字符识别应用的例子,可以进一步分为离线或在线。  在这方面,已经研究
学位