基于CUDA的高通量并行序列比对方法研究

来源 :厦门大学 | 被引量 : 0次 | 上传用户:kevin_dai
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
高通量测序技术的不断发展为生物学研究提供了丰富的生物数据信息的同时,生物数据信息爆炸式增长所带来的海量数据也给科学研究带来了新的难题。处理如此大量的数据,必须采用更高效、更方便、更实用的方法,才能配合生物学研究,共同提高科研工作的效率。  序列比对技术是处理生物信息最常用的手段,通过序列比对找到序列之间的同源性、相似性等对生物学研究有着及其重要的意义。目前,已有许多处理序列比对问题的方法,最经典的比对方法是Smith和Waterman提出的smith-waterman算法,该方法是一种基于动态规划理论的局部比对算法,其计算结果十分准确,但是smith-waterman算法的空间复杂度和时间复杂度很高,随着计算数据越来越庞大,在传统的串行架构下,该方法计算效率很低,严重影响了科研效率。  如GPU并行计算等计算机多核心技术的不断发展,使得并行计算在处理大数据问题时显现出越来越明显的优势。本文使用GPU并行技术,在最新的CUDA架构下针对海量生物序列数据的序列比对问题,结合已有的串行和并行算法,基于经典的Smith-Waterman算法,提出一种基于序列向量化的两级并行序列比对方式,该方式通过并行序列向量化、并行聚类近似比对、并行Smith-Waterman算法比对这三个环节,先近似比对缩小比对序列规模、提高比对计算效率,再使用精确比对来保证序列比对精度,从而提高该比对方式的综合性能。另外,针对并行Smith-Waterman算法,本文提出了一种改进思路,通过异步并行的方式提高处理器核心的使用效率,进一步提升Smith-Waterman算法的计算效率。同时,针对生物信息序列库多样性序列分析中的高通量序列比对问题,给出了具体的实验方案与结果分析,并进一步讨论了并行序列比对算法在序列比对过程中的设计思想。
其他文献
车牌识别技术是车辆自动识别应用的核心技术之一,也是智能交通系统能否自动化运行的关键,被广泛应用在如重要关卡车辆登记、违章抓拍、停车场收费与管理等交通场合。车牌定位是
自主定位是机器人自主导航系统的重要组成部分,基于视觉里程计的自主定位方法以非接触、信息易获取、累积误差小等优点,逐渐受到人们的关注。随着应用需求的不断提升、自主移动
当今时代,伴随着信息技术的快速进步,普通数控系统普遍存在着自动化水平低,且网络化水平低等问题。CAN总线作为当今自动控制方面研究应用的热点技术,能够用其实现开放以及数字化
棉纺织品广泛应用于人们的日常生活中,在国民经济中具有举足轻重的地位。但异纤杂质一直是困扰棉纺织企业的一大难题,严重影响着棉纺织品的质量,有时还会因产品质量问题造成退货
作为物联网重要的基础支撑技术的无线传感器网络是由大量廉价的微型无线传感器节点组成的。它融合了传感器技术、分布式计算技术、无线通信技术、嵌入式处理技术等多学科技术
近年来,快速增长的无线频谱资源需求与现有的静态频谱分配策略之间存在着频谱资源利用率不高的严重矛盾。为了提高通信网络中频谱资源的利用率,缓解频谱资源的短缺,认知无线电技
近年来,临床上在血栓和止血方面检测所需的样品和项目数越来越多,传统的手工法和单一的凝固定性检测已远不能满足临床需求,全自动血液凝固分析仪的提出有效地解决了这些问题,它能同时应用不同的检测方法对大量的样品进行多项指标的检测,对样本和试剂的需求比手工方法几乎减少一半,极大地降低了检测成本。同时,不同检测项目可随意组合,提高了检测结果可靠性。本文首先介绍了血液凝固分析仪的发展历程,根据需求分析指出设计一
精细农业是科学技术与农业有机结合的产物,是将科学技术与科学管理方式应用到农业生产中,是农业现代化的重要组成部分。通过精细农业技术,获取影响农田产量和作物生长的环境
随着计算机技术的不断地发展与应用以及智能化不断地提高,与机器进行交流,能让机器能够明白人类的语言,这是人类长期以来所期望的,正是因为这种期望和需求推动着语音识别技术快速