基于MapReduce的DNA序列k-mer频次统计算法研究

来源 :重庆邮电大学 | 被引量 : 0次 | 上传用户:tscy123
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着“人类基因组计划”的完成,生命科学研究进入了信息共享与分析的“后基因组”时代。在探索和分析生物基因数据的过程中,DNA序列是研究的重点之一。DNA序列k-mer及其频数在基因序列拼接、序列比对、错误序列检测中有着重要的应用。由于高通量测序技术的发展以及DNA序列研究工作的迅速开展,各研究机构产生了大量数据,带来了对数据可靠存储、高效计算和分析的迫切需求,这就要求研究新的DNA序列数据存储与计算模式解决DNA序列数据的激增问题。本文首先做了理论调研工作,详细阐述了DNA序列及k-mer基本概念、特征及其应用范围,其次分析了DNA序列k-mer频次算法的国内外研究现状。同时深入研究MapReduce并行编程模型的特点和应用,并研究Hadoop分布式处理平台的特性和设计原理,得出在海量生物基因序列数据存储和计算问题上,MapReduce编程模型和Hadoop框架的优势所在。然后本文重点研究后序遍历k-mer频次统计算法(BTKC),详细分析算法原理和优缺点,针对其存在的问题,提出了一种改进算法。改进算法由用户指定可用内存和Hash表装载因子,将序列数据分区加载进Hash表进行迭代计算;同时设计了一种排序策略,对Hash表结果进行排序后输出。实验表明了算法能够在有限内存下处理任意大小的数据集,同时对Hash结果排序输出可以在数据集很大的情况下,节约合并中间结果的时间,算法效率得到有效提升。最后针对大规模DNA序列数据存储和计算问题,从理论和实践两方面分析了Hadoop框架及MapReduce编程模型的适用性。之后对改进后的算法进行并行化应用研究,提出一种基于MapReduce的DNA序列k-mer频次统计算法,并在Hadoop集群上进行实验,验证并行算法的有效性。
其他文献
国防教育要与时俱进更新理念,充分用好“互联网+”技术平台,科学构建国防教育有效载体。在做活传统载体,用好新兴媒体,打造融媒体的同时,坚持做到“政治建网”“机制建网”“
目的探讨肾上腺静脉取血术患者右肾上腺静脉开口的分布特点。方法收集2006年1月-2013年10在新疆维吾尔自治区人民医院高血压中心住院、诊断明确的原发性醛固酮增多症(primary
近视是随着社会文明的发展而带来的疾病。目前世界各国近视的发病率相当高,如日本近视约占总人口的50%,苏联约占总人口的25%。在我国,据调查,在学生的视力不良中,近视所占的比
1995~ 1997年对肉桂泡盾盲蝽进行了系统观察研究。该虫每年发生 4~ 5代 ,越冬虫卵于 4月中、下旬孵化 ,若虫危害枝梢和树干。第 1、2、3、4代 3~ 4龄若虫出现时间分别于 6月上、
<正> 一百多年前,无产阶级的革命导师马克思和恩格斯在《共产党宣言》中曾经豪迈地预言:“无产者在这个革命中失去的只是锁链。他们获得的将是整个世界。”而无产阶级和劳动
以鲜天麻、糯米为原料,采用单因素和正交试验优化天麻米酒料水比、天麻添加量、发酵时间、酵母添加量、发酵温度对感官评分及酒精度的影响。结果表明:料液比1∶2(g/mL)、天麻
研究目的:描述77例46,XY性发育异常(Disorders of Sex Development,DSD)患者的临床特点,激素水平,诊断和治疗情况,探究血浆抗苗勒氏管激素(Anti Mullerian Hormone,AMH)测定
目的本文以基于分子间电荷转移机理构建一种三氰基二氢呋喃衍生物(DCDHF-2-V-I)-喹诺酮药物类荧光探针,确定该探针的使用最佳条件,并应用该探针做喹诺酮类药物含量检测。方法
当前阶段,许多行业运营以及宣传过程中都引入了平面设计,大幅度的提升了运营以及宣传效率和质量。但是随着运营以及宣传工作的不断改进和更新,对平面设计的性能也提出了更高
城市供水关系着一个城市稳定发展的重要行业,是一个城市的不可或缺的重要保障。近年来,随着我国发展日新月异,人民对生活品质的要求不断提高,对引用水的质量和供水的安全可靠