【摘 要】
:
随着下一代测序技术的不断发展和逐渐成熟,高通量测序已经成为生物、医学研究中的常规工具,也即将在农业和医疗等行业中得到广泛应用,促生了精准医疗和分子育种等新兴产业。
论文部分内容阅读
随着下一代测序技术的不断发展和逐渐成熟,高通量测序已经成为生物、医学研究中的常规工具,也即将在农业和医疗等行业中得到广泛应用,促生了精准医疗和分子育种等新兴产业。不同以往的低通量技术,高通量测序技术所产生的多种组学(全基因组、全外显子组、转录组、宏基因组等)数据具有通量高、数据量大、复杂异质等特点,所涉及的处理与分析步骤多且繁琐,对数据处理的软、硬件都提出了较高的要求。如何快速、高效处理和分析高通量测序数据成为高通量测序技术广泛应用的瓶颈。比如,当前受到广泛关注的精准医疗主要依赖于基因测序技术,如何高效处理和分析海量的病人的基因测序数据,从中获取个性化的癌变驱动信息成为实现肿瘤精准诊疗的关键和难点问题。基因测序技术从第一代测序技术发展到当前最新的第三代测序技术,其测序通量爆炸性增长。第一代测序技术的通量仅仅只有0.2MB/run,而以Illumina为代表的第二代测序技术其通量能达到1500GB/run左右,第三代测序技术的通量更是达到了 30-400bp/s。测序技术的进步为相关的生物、医学研究提供了有力的支持,但是如何解决海量的测序数据成为急需解决的学术和行业难题。为了解决上述问题,本文基于Hadoop系统设计并实现了一套高通量测序数据自动化并行处理系统(SeqReduce),其主要的目的是利用计算机集群,为海量的测序数据分析提供一款高效、稳定、低廉的自动化处理工具。该系统的核心设计思想是通过MapReduce并行运算框架对相关测序数据进行分割、对比、信息查询,最后输出突变基因信息文件或者转录本文件。该系统具有以下几个优点:(1)该款工具能够同时兼容多种测序平台包括主流的Illumina以及Roche 454等所产生的测序数据。(2)该款工具不仅能够处理DNA-seq的数据,还能够对RNA-seq数据进行分析处理。(3)为了使该工具能够适应不同的硬件坏境,设计了两种不同的并行处理模式,分别是低性能模式和高性能模式,使得该工具能够适应不同配置条件的硬件环境。
其他文献
随着电子控制技术的迅速发展,电子节气门将取代传统机械式节气门。电子节气门控制系统能够根据驾驶员操作意图、汽车工况、外部环境等因素控制节气门的开度,实现最佳进气,电
行人运动目标的检测和跟踪技术在视频图像处理领域是个很活跃并且很实用的研究方向,行人的检测与分析在地铁、道路、超市出入口等交通通道的客流量统计中有着重要的作用,尤其
随着收押人数的逐年增多,犯罪分子知识水平的不断提高,监狱对在押人员的管理难度越来越大,警力不足的问题日益突出。设计监室管理系统可彻底改变目前这种“人防”为主的勤务
涡街流量计由于无机械可动部件,安装方便,量程比较宽,并且可以测量气体和液体介质等优点,被广泛应用于石油化工等领域。但是,涡街流量计在实际应用中,由于目前普遍使用应力式涡街流量计,容易受到管道强振动干扰容易对测量精度造成的较大影响,特别当振动信号能量大于涡街信号能量时,功率谱分析的方法无法正确得出涡街频率。因此,抗强振动干扰问题是涡街流量计亟需解决的问题,本文基于单传感器抗强振动干扰问题进行了算法和
随着计算机技术、互联网技术的快速发展,数字图像库越来越庞大,传统的基于文本的图像检索方法已经不能满足人们的需求。基于内容的图像检索技术进入人们的视线并迅速成为当前的
猫从高处坠落能安全落地的能力一直被研究者们关注。当一只猫从高空跌落时,它总能通过姿态调整使四肢朝下,加上腿部具有减少地面冲击作用,最终能实现安全落地。机器人在未知
随机系统是一类状态演化表现为随机过程的动态系统,它广泛地存在于实际的工程应用中。相较于一般的确定性系统,其稳定性分析、控制器设计、滤波等问题都更为复杂。本文特别关注
随着能源消耗日益增长、环境污染日渐严重,迫使人们考虑新能源和可再生能源的开发和利用问题。风能已经发展成为世界各国普遍关注的新能源,由此风力发电技术的研究和应用在这几年中突飞猛进,而矢量控制技术在风力发电中具有关键性作用。本文分析了双馈风力发电机的基本工作原理和数学模型,木文介绍了双馈发电机两电平电压型双PWM变流器工作原理、拓扑结构,建立了其基于开关函数的数学模型,并依照功率恒定原则进行三相静止坐
关键词抽取是自然语言处理领域中重要的基础技术,被广泛应用于信息检索、文本聚类、文本分类等方面。目前,互联网中的资讯规模急速增长,包含了大量富有价值的数据,关键词是检索及