基于hadoop streaming的Last软件并行化的研究与实现

来源 :东北林业大学 | 被引量 : 0次 | 上传用户:long840223
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网、物联网及云计算相关技术的迅速发展,相关科学领域的数据呈现快速增长的趋势,如何快速准确的分析日益增长的数据成为一大难题。当前许多领域的成熟软件仍然是单机版软件,这种单机版软件无法面对其所在领域日益增长的海量数据。通过将这种成熟的单机版软件在云平台上实现并行化将能够有效解决这个问题。为实现单机版软件并行化,往往需要分析单机版软件的源码,并转换输入文件的结构。此过程费时费力,开发周期较长。本文主要阐述了一种在不修改单机版软件任何源码及输入文件结构的情况下,将单机版软件快速在Hadoop平台实现并行化的方案。该方案通过使用Hadoop平台提供的Hadoop Streaming编程工具,将序列比对软件Last在Hadoop平台上实现了并行化,为其它类似问题提供借鉴。本文的主要研究内容是:首先对Last软件并行化过程中涉及的技术和原理进行研究与分析,重点研究了Last的比对原理、Hadoop分布式平台和集群文件系统Lustre。其次设计了基于HDFS的并行化模型,通过修改InputFormat来使其为Last比对软件提供符合约束的输入数据,并设计相关的Mapper脚本来将Last比对软件进行打包,使其可以透明的运行在Hadoop平台上。第三,设计了基于Lustre的并行化模型,通过设计索引构建算法为输入文件建立索引,使每个子任务可以通过该索引快速的获得该任务所需处理的数据分片。并设计相关的Mapper脚本和Reducer脚本来将Last比对软件进行打包,重构分区类Partitioner来使并行化的粒度可控。最后设计相关实验,验证以上并行化方案的可行性、有效性和准确性。
其他文献
由于网络规模的不断扩大,网络管理研究成为IT业界的热门研究方向之一,通信运营商急需建设综合化、集中化、智能化的网管系统,对通信网进行有效的管理,为客户提供优质的服务,提高企
自组织网是一种自治的无线网,整个网络不需固定的基础设施,可以在不能利用或不便利用现有网络基础设施的情况下,提供一种便捷的通信支撑环境,拓宽了移动网络的应用场合。目前
根据计世资讯对于开发企业信息化解决方案的需求调研结果表明,基于业务流程管理的应用软件市场正呈现指数级、井喷式增长趋势。工作流产品作为开发业务流程管理软件的解决方案
随着网络技术的飞速发展,Internet技术已经渗透到日常生活和工业生产的各个领域,这使得远程实时监控工业自动化生产成为可能。技术人员无须亲临现场(尤其在恶劣环境下)就可以对
无线通信及相关技术的发展促进了新的网络组织方式的形成,MANET就是其中最重要的方式之一。MANET具有无固定基础设施支持,无中心和自组织,支持移动无线传输,易于安装部署等特
随着中国加入WTO,媒体产业逐步开放,媒体之间的竞争加剧,电视媒体广告业正面临着前所未有的挑战。如何将日益堆积的广告业务数据进行有效管理,挖掘其中埋藏的信息,如何吸引客户和
随着教学改革的深入和计算机技术与应用的发展,多媒体网络教学成为传统教学模式的发展方向。近几年,国内外涌现了大量的多媒体教学软件,大多数都具有比较类似的特征,如音/视
本文研究方言口音普通话语音自动切分算法,主要服务于方言口音普通话语音库建设。近年来,随着语音学研究转向口音化、口语化的自然语音,方言普通话语音库已经成为国内语音库
形式概念分析(FCA)是一种概念化知识处理的强有力的工具,目前广泛应用于信息检索、数据挖掘、软件工程、知识发现等领域。随着信息化以及数据库规模的迅速增大,数据库中不仅包含
随着网络及计算机在人们生活中的日益普及,图像、音频等多种形式的多媒体文件极大地丰富了人们的生活。同时人们对于图像的画质要求也在不断提高,于是图像处理就提到了研究的