全比较问题与基因序列比对算法并行化研究

来源 :内蒙古农业大学 | 被引量 : 0次 | 上传用户:lovesici
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
全比较问题是一类特殊的计算问题,广泛存在于生物信息学和数据挖掘等领域。一种合理有效的全比较问题数据分发策略,可以充分利用分布式系统的计算资源、提高多序列比对任务计算效率。多序列比对是一种耗时的计算任务,比对算法的并行化设计是提高比对速度的关键。分布式系统下多序列比对是一种典型的全比较问题,生物学中的序列比对可以了解不同物种的核苷酸组成和基因顺序方面的异同,进而揭示基因潜在的功能,阐明物种进化关系及基因组的内在结构。论文针对分布式系统下全比较问题的数据分发策略、大序列文件切分评价、分布式文件分发框架构建和序列比对算法并行化展开研究,主要工作和创新点如下:1.研究了分布式系统下全比较问题的数据分发策略。针对全比较问题进行了形式化描述,提出了一个满足数据本地化、节点负载均衡、节点存储占用最小且均衡、不超过节点存储上限等条件的多目标最优化数据文件分发模型;进行数据文件分发策略设计,提出一种对数据集中数据文件分发策略;通过仿真实验验证模型和算法的有效性。2.研究了文件切分和合并算法,针对一个大的基因序列文件,通过对节点计算负载均衡、节点存储量最小而不超过上限、节点的平均计算量最小等目标进行归一化处理,根据实际应用情况设定各个目标重要程度系数,构建了面向全比对问题的文件切分评价模型,并结合上述研究的多目标最优化数据文件分发模型,给出了确定最优文件切分份数算法。3.基于论文提出的文件分发策略,构建了基于Hadoop框架的分布式文件分发系统。搭建分布式集群环境,利用HDFS进行文件存储,Yarn框架进行资源管理,采用Java编程技术实现文件分发程序。实验结果表明在满足数据本地化、节点负载均衡、节点存储占用最小且均衡、不超过节点存储上限的条件下,实现了将文件分发到分布式系统中的不同节点上。4.研究了基因序列比对算法的分布式并行化。从提高算法运行速度、降低算法的时间复杂度方面对Smith-Waterman算法进行了改进,并将Smith-Waterman算法和Blast算法在Spark平台上进行了并行化设计。设计了算法准确性实验、集群多节点对比实验、集群不同节点对比实验、可扩展性实验等多组实验,验证了并行化算法的准确率、效率和扩展性。论文的主要贡献与创新点:针对全比对问题,提出了一个满足数据本地化、节点负载均衡、节点存储占用最小且均衡、不超过节点存储上限等条件的多目标优化文件分发模型;构建了一种大序列文件切分评价模型;设计并实现了基于Spark平台的序列比对Blast算法、SW算法的并行化方案。
其他文献
目的:规范评价神经复元方治疗缺血性卒中后抑郁的临床疗效及对血清BDNF的影响;探讨神经复元方调控BDNF/Trk B信号通路促进海马神经元突触可塑性治疗卒中后抑郁的部分作用机制
目的探讨腹腔镜下模块化胆总管探查术治疗胆总管结石的效果,评估其安全性及可行性。方法回顾性分析2010年6月至2019年6月期间,暨南大学附属第一医院肝胆外科的作者团队共收治了216例胆总管结石患者,均成功同期行腹腔镜下胆总管探查术(laparoscopic common bile duct exploration,LCBDE),其中95例接受常规LCBDE为常规组,121例接受模块化LCBDE为实
目的:通过观察中西医结合和中西医联合针刺治疗肾虚肝郁证早发性卵巢功能不全临床疗效差异,为治疗早发性卵巢功能不全提供理论依据和治疗方法。方法:收集2018年9月到2019年12
教学是一个充满问题的专业领域(崔允漷),教学设计是一个受多种因素影响的教学规划过程。对每一个执教者来说要经常思考的问题至少包括以下四个:即为什么“教”学生学?“教”
银行的发展在一定程度上反应了国家的经济发展水平。为支持创新创业,农商银行大力开拓了针对小微企业的贷款业务,但由于小微企业自身发展的特点,银行难以获得其信用数据,授信额度难以评估,导致小微企业融资难,银行贷款业务开展效率低、资金赎回管控水平低等一些不足。基于农商银行小微贷款所存在的问题分析基础上,论文采用MVC模式、B/S架构以及spring框架等技术,设计与开发了一套农商银行小微贷款管理系统,系统
土壤团聚体是土壤结构的基本单元,可有效指征土壤质量;土壤团聚体大小、分布以及稳定性对于土壤物理化学、生物学特性起着重要的调节作用。土壤团聚体的形成是一个动态变化过
现代银行管理的核心目标是数字化管理,作为银行为了更好地在市场中占有主导竞争力,各个银行也在努力的将信息化管理作为主要目标,同时为银行业不断地国际化发展提供了有力的
目的:通过对接受中医综合治疗方案联合多学科治疗的晚期NSCLC患者的进展和生存情况的采集,对影响进展和预后的因素进行分析,探讨中医药联合多学科治疗手段干预晚期NSCLC的优势和价值,为建立肿瘤治疗慢病模式提供参考。方法:回顾性分析855例在肿瘤三科住院接受中医药治疗的晚期NSCLC患者的临床资料。利用Epi Data软件建立数据库,SPSS 21.0软件进行统计分析,运用乘积极限法(Kaplan-
目的:探讨冰硝散对治疗全膝关节置换术后下肢肿胀及疼痛的作用,观察冰硝散治疗全膝关节置换术后肢体肿胀的临床疗效。方法:选取自2017年4月-2018年12月于山东中医药大学第一附属医院住院,按照诊断标准、纳入标准、排除标准、剔除与脱落标准选择60例病人,并按随机分配的原则,随机将患者分成自制冰袋对照组和冰硝散实验组,每组30名。每组患者在术后均采用相同的营养及防血栓治疗。给予冰硝散实验组患者切口两侧
汉碑著录是历朝历代金石学家著录的重点,尤其到了清代,由于金石学的兴起随之涌现出一大批金石学家,但由于他们的生活环境以及交游的差异,不同金石学家对于同一块碑的著录也不尽相同,本文旨在对各家著录进行对比,考证其中的传承关系、社会背景以及存在差异的原因,还原其最本源的状态。《白石神君碑》作为汉末时期的碑刻,以其特有的面貌为后人所著录,本文通过对《石刻史料新编》中涉及的所有关于《白石神君碑》的62处著录以