异构CPU/GPU并行环境中基因组序列分析算法研究

来源 :天津大学 | 被引量 : 0次 | 上传用户:hgs061268109
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
生物基因序列分析在生物学等领域有非常重要的价值。通过多序列比对(MSA)可获得生物遗传规律等信息。通常,MSA是将一条或多条测序获得的新基因序列同已经存储于数据库中的其他基因进行比对。但是当前测序技术只能产生有限长度的短序列,需要先将他们进行组装以重建完整基因序列,然后再将组装获得的新基因序列应用于MSA。生物数据集的快速增长使得基因数据分析面临内存需求大、时间需求长等许多挑战。利用CPU与GPU共同构成的异构环境进行基因序列分析算法的并行优化已经成为重要的发展趋势。在基因组组装算法中,de Bruijn图被广泛使用。但是由于内存限制,大量的中间数据使得构建完整的de Bruijn图异常困难,涉及的密集计算也使得组装时间太长。而在MSA领域,近年来许多生物信息学研究机构为用户提供共享服务器。多用户在共享服务器上提交的MSA任务经常处理相似数据集,有机会彼此共享计算中间结果,从而避免冗余计算。基于以上问题,我们在CPU与GPU共同构成的异构平台上设计实现了GMSP组装系统和SMSA多序列比对系统。首先,我们提出了基因组组装系统GMSP。测序产生的新基因短序列在进行多序列比对之前,需要通过组装器拼接短序列以重构完整序列。首先,使用最小子串分区(MSP)算法将数据分区成小的数据块。其次,利用布隆过滤器过滤无效节点,并设计哈希表来存放图信息。第三,对数据进行压缩并重新编码碱基字符以降低I/O消耗。最后,利用流水线重叠数据传输和计算时间以隐藏部分计算(或传输)时间,提高程序整体的时间性能。实验表明GMSP系统可以获得高达25倍的加速。其次,我们提出了基于共享的多序列比对系统SMSA。通过组装器获得完整的新基因序列后,MSA将对其进行多序列比对。SMSA考虑了用户间的数据共享,以加速来自多个用户的计算。此外,SMSA还设计了一种基于MSA作业之间数据集或任务的相似性的调度策略并采用co-run计算模型。实验结果表明,SMSA可以实现高达32倍的加速。
其他文献
聚氨酯气凝胶是一种聚合物气凝胶,具有传统气凝胶低密度、低热导率特性的同时具有优秀的机械性能,可被应用于保温绝热领域。然而,由于化学成分主要由碳和氢组成,故可燃性较高。若想应用在保温隔热领域,提升其阻燃性对聚氨酯气凝胶的应用意义重大。本文采用溶胶凝胶法,并在制备过程中通过添加阻燃剂磷酸三(2-氯丙基)酯的方法对其进行阻燃改性得到阻燃聚氨酯气凝胶,并对样品的性能和结构进行分析研究。首先,以N3300和
在过去的几十年中,可见光驱动的光催化剂的发展引起了很多关注。大量研究集中在半导体光催化剂上,主要涉及在紫外或可见光照射下的水分解和有机污染物的降解。发现二氧化钛(Ti
近年来,互联网的飞速发展使得信息过载的现象变得十分突出,对用户来说从海量资源和信息中去发现并找到自己感兴趣的资源或者所需要的信息也变得十分困难。解决该问题的其中一
苯扎贝特(BZ)是一种常用的降脂药,在其合成与后处理过程中存在产物产率与含量较低,废液中尚剩余的BZ因废液粘度大造成回收困难,废液的无害化处理尚未解决等问题。因此提高BZ产
本研究以篮球项目和CBA联赛为例,通过查询大量相关文献关于“篮球职业联赛中的体育现场主持人和其发展的现状”的研究,以及就现场主持人在CBA联赛全国赛区的整体发展结合2018年CBA联赛对于MC的最新要求进行调查,找出目前在评价CBA现场主持人的主持问题从而达到客观易行的评价CBA联赛现场主持的效果,进而为主持人员的今后的主持工作提供有益的参考。通过本研究调查结果得出以下结论:1.CBA现场主持人根
反事实思维是指个体对过去已经发生的事件在心理上进行否定并构想出另外一个假设性替代结果的思维过程。根据反事实思维的产生方向,可将其划分为上行反事实思维和下行反事实思维。上行反事实思维是指想象的替代结果比现实结果更好,而下行反事实思维是指想象的替代结果比现实结果更差。现有的研究发现个体在面对负性事件结果时更容易产生反事实思维。并且许多研究也发现自尊、大五人格、完美主义等人格因素都会影响反事实思维的产生
研究目的:本文研究了柴胡疏肝散加减对肝郁气滞型老年抑郁症患者抑郁症状、生活质量的影响,进一步探讨了柴胡疏肝散治疗老年抑郁症的临床疗效级相关作用机制。研究方法:研究纳入60例老年肝郁气滞型抑郁患者,按不平衡指数最小分配原则随机分为对照组和观察组,对照组患者30例,单纯给予草酸艾司西酞普兰片,观察组患者30例,在对照组患者治疗的基础之上给予中药加味柴胡疏肝散治疗,通过设计各项指标观察,包括汉密顿抑郁量
近年来,由于镧系配位聚合物(LCPs)具有较大的斯托克斯位移、较长的荧光寿命以及尖锐的发射峰使其在分析传感领域应用越来越广泛,而基于此的增强型镧系荧光探针更是受到人们的青睐。本论文研究中设计、构建了四种荧光增强型镧系配位聚合物探针,并且分别特异性的检测了淀粉样蛋白、柠檬酸盐、鸟苷酸和锌离子。主要研究内容如下:(一)提出一种新的基于荧光增强检测Aβ1-40荧光探针的构建方案。在此,使用Tb3+作为发
高吸附容量的蛋白A(SpA)亲和色谱是单抗药物纯化的关键技术。本文以SpA分子的Z结构域为出发点,以开发高容量SpA色谱介质为目标,利用表面等离子共振(SPR)、等温滴定微量热(ITC
风险作为一种观念随着全球化和现代化的发展席卷全球,风险社会也成为世界的发展趋势。环境风险作为主要的风险形式之一,开始对人类社会产生重要影响。随着环境污染的日益加剧