论文部分内容阅读
随着社会进入网络时代,各种各样的网络设备骤增,产生了大量的数据信息,而这些数据大部分是以文本的形式存在的,如何高效快速的处理这些文本数据,从中获取有用的价值,是当前大数据时代所面临的主要问题之一。传统的文本处理算法,很难满足现阶段大数据处理效率的要求。MapRedcue是由Google所提出的一个并行编程模型和执行框架,它为当前大数据处理提供了一个标准的模型,可以很高效的完成PB级的数据处理工作;并且它很容易被掌握,开发人员只需关心问题的本身,按模型所提供标准进行编程实现,而不用去关心底层的组织和执行细节,就可以轻松的应对大数据问题。 本文首先从大数据问题开始,介绍了大数据的产生途径及云计算技术,接着阐述了MapReduce的基本思想来源-函数编程思想,对MapReduce编程模型中的Mapper及Reducer以及执行框架怎样协调MapReduce程序执行的具体过程做了细致的分析,其中包括划分器,合并器等。在介绍分布式文件系统的同时,以Hadoop的文件系统HDFS为例,详细分析了分布式文件系统的原理及构成。并对Hadoop集群架构做了基本的讲解。在 MapReduce算法设计方面,通过单词共现矩阵构造的示例,分析讲解了两个常见的设计模式:对(pairs)与带(stripe),在对以上两种设计模式深入的介绍后,引入了反序模式的概念。本文的创新之处在于对文本处理算法做了深入研究,不但深入分析了EM算法、Bayes文本分类算法及隐马尔科夫模型,并且在此基础上提出了采用EM算法进行指导的改进型文本分类算法;在把EM算法应用于处理大数据问题时,引入隐马尔科夫模型,并将其在Hadoop平台下进行实现,经过实验得出以下结论:在Hadoop(MapReduce的开源实现)平台下,采用EM算法与HMM结合的方法解决对字对齐问题平均迭代时间有很大提高(普通的1/37~1/38之间)。