【摘 要】
:
针对生物信息分析中基因短序列比对任务计算耗时长的问题,采用Spark平台、RDD数据集以及分布式文件系统HDFS设计了一种分布式计算模型。采用分而治之的策略将庞大的计算任务
【机 构】
:
内蒙古农业大学计算机与信息工程学院
【基金项目】
:
国家自然科学基金(61462070)
论文部分内容阅读
针对生物信息分析中基因短序列比对任务计算耗时长的问题,采用Spark平台、RDD数据集以及分布式文件系统HDFS设计了一种分布式计算模型。采用分而治之的策略将庞大的计算任务分割为多个互不重叠的小任务在分布式集群上并行执行。通过基于位置偏移量等分的数据分区算法实现数据的分发;通过将基因短序列封装入RDD数据集的方法实现了短序列的逐条处理;通过将基因比对算法传入RDD的Map函数的方法实现了基因序列的比对。计算模型的实现使得串行比对算法在分布式集群上可扩展,并显著降低了计算耗时,计算结果可与后续的生物信息分析
其他文献
【正】 在教育评价中评什么,由谁来评等问题,这是急待解决的问题。如果这个问题解决不好,只从评价方法上做文章,说得通俗一点就是还不知道做什么,就想研究怎么做,这就有些本
秦更年过录本何焯校《苏学士文集》传自钱泰吉转录之元本,又以唐仁寿过录钱本、《四部丛刊》本所附何校对勘;其中内容确有胜出诸本之处,于苏舜钦诗文的研究大有裨益,是一个传
以最近发生的四川大学在读法律硕士杨世建因人事部不受理其报考中央国家公务员而提起行政诉讼案件为背景,通过分析宪法上的平等权、平等就业权的法律性质及侵害平等就业权的
蔡元培是民国第一位教育总长,他按照一定的理论和实践基础,主持制定了《普通教育暂行课程标准》。此项暂行课程标准蕴含着全面发展、面向世界和儿童本位等教育理念,为我们施行小
针对目前常用的地震灾害中人员伤亡评估模型和方法评价指标单一,难以有效体现不同因素对人员伤亡的影响等不足,根据地震造成人员伤亡的原因,对造成人员伤亡的主要因素进行系统分
综述了国内外有关烟碱的研究成果,分析了遗传特性、环境因子和栽培技术等因素对烟叶烟碱含量的影响,并提出了相对应的调控措施。
倒数似乎是个平淡无奇的概念,但如果灵活地应用它来解题,却能变化多端,奥妙无穷,下面以一些竞赛题为倒,说明倒数的妙用:例1 如果x+1/x=3,则x~2/x~4+x~2+1=(?).(1988年广州、
针对圆柱滚子轴承组合实体保持架采用冷铆进行铆接出现的质量问题,采用电铆机对保持架进行热铆,将模具材料更换为W18Cr4V,将平端面铆头改为圆弧端面铆头,并对定位行程进行了
“我们没有什么秘密的,都靠自己做,能做多少就做多少。”从9剧场回到西大望路的办公室,北京舞蹈双周艺术总监曹诚渊用他一口语速很快的港腔普通话,与《第一财经日报》记者从舞周
目的采用MRI测温探讨高强度聚焦超声(HIFU)联合80no Vue损伤山羊肝脏组织的增效作用。方法选取南江黄羊6只,于MRI监控下对山羊肝脏进行HIFU定点辐照,辐照频率为1.0MHz、辐照深度30