基于MapReduce的文本处理算法的研究与应用

来源 :桂林电子科技大学 | 被引量 : 0次 | 上传用户:haolong12345
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着社会进入网络时代,各种各样的网络设备骤增,产生了大量的数据信息,而这些数据大部分是以文本的形式存在的,如何高效快速的处理这些文本数据,从中获取有用的价值,是当前大数据时代所面临的主要问题之一。传统的文本处理算法,很难满足现阶段大数据处理效率的要求。MapRedcue是由Google所提出的一个并行编程模型和执行框架,它为当前大数据处理提供了一个标准的模型,可以很高效的完成PB级的数据处理工作;并且它很容易被掌握,开发人员只需关心问题的本身,按模型所提供标准进行编程实现,而不用去关心底层的组织和执行细节,就可以轻松的应对大数据问题。  本文首先从大数据问题开始,介绍了大数据的产生途径及云计算技术,接着阐述了MapReduce的基本思想来源-函数编程思想,对MapReduce编程模型中的Mapper及Reducer以及执行框架怎样协调MapReduce程序执行的具体过程做了细致的分析,其中包括划分器,合并器等。在介绍分布式文件系统的同时,以Hadoop的文件系统HDFS为例,详细分析了分布式文件系统的原理及构成。并对Hadoop集群架构做了基本的讲解。在 MapReduce算法设计方面,通过单词共现矩阵构造的示例,分析讲解了两个常见的设计模式:对(pairs)与带(stripe),在对以上两种设计模式深入的介绍后,引入了反序模式的概念。本文的创新之处在于对文本处理算法做了深入研究,不但深入分析了EM算法、Bayes文本分类算法及隐马尔科夫模型,并且在此基础上提出了采用EM算法进行指导的改进型文本分类算法;在把EM算法应用于处理大数据问题时,引入隐马尔科夫模型,并将其在Hadoop平台下进行实现,经过实验得出以下结论:在Hadoop(MapReduce的开源实现)平台下,采用EM算法与HMM结合的方法解决对字对齐问题平均迭代时间有很大提高(普通的1/37~1/38之间)。
其他文献
本文针对现有网络入侵防御手段本身存在难以解决的缺陷以及当前容忍入侵系统中自适应性和容忍故障/入侵能力较差的问题,提出了一种基于表决机制的容忍入侵系统模型。文中对支持
本文论述了基于XML和数据挖掘的智能教学系统。基于对目前智能教学系统的发展历程的调研,提出了一个基于Internet的智能导航远程教学系统来满足不同知识背景、学习技能和学科
随着计算机技术和网络技术的迅速发展,网络上的数据呈爆炸式增长。这些数据带有明显的异构特性(数据格式异构、平台异构、应用异构等)。而目前的大部分搜索引擎和一些集成软件
随着网格技术的发展,科学数据呈现爆炸式增长,地理上广泛分布的各网格结点的用户都希望能够访问和分析这些庞大的数据,但是由于计算复杂、计算量大,而现有的数据管理体系结构
实时数据模型是实时数据库的核心和基础,近年来实时数据库的应用领域在不断地扩展,但目前在实时数据库的研究文献中还很少见到专门讨论数据建模问题的,为此进行和加强这方面
目前为止,我国的体育场馆在承办比赛或娱乐活动期间,售票和验票环节均为手工操作,而且存在着一些问题:一、提前印刷全部门票,一旦门票没售出,将造成浪费;二、观众不能对所购
网络资源管理系统是BOSS运营支撑系统的重要功能管理平台,以往各专业网络对网内资源进行单独管理,由于网间业务的融合,使得电信运营企业需要建立综合网络资源管理系统以对全网资
网络可靠性分析是网络可靠性研究的基础。目前网络的可靠性分析往往高估了网络的可靠性。约束条件下的网络可靠性分析受计算复杂性的制约,最典型的就是处理较大规模网络时产
智能答疑系统作为网络教育体系不可缺少的一个子系统,它的发展和完善有待于多种技术的成熟和综合应用,本文研究并实现了一个基于.NET平台的智能答疑系统。 本文首先分析了
汽车电子技术的飞速发展使得汽车的信息化和智能化达到了前所未有的高度,车辆各系统的电子控制单元通过车载总线连接到一起。作为汽车计算机控制系统的标准总线,CAN总线是电