基于MapReduce的复杂结构数据处理

被引量 : 0次 | 上传用户:xdhjyinghua
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年以来,大数据处理的问题一直困扰着整个计算机界。尤其是World Wide Web诞生以后,互联网尤其是中国互联网飞速发展,各种类型的数据爆炸式增长。如今,传统的集中式数据库得到了广泛的应用,几乎无处不在。然而经过学术界广泛研究和工业界长期实践发现传统的集中式数据管理技术正逐渐向着少数大公司相继建立的基于云架构的数据中心演变。在此背景之下,如何在大型的数据中心中存储、索引和组织海量的数据已经成为当今全世界迫切需要解决的难题。海量数据的管理问题已经引起了全世界学术界和工业界的广泛关注。计算机应用的种类不断增加,海量数据的结构类型也随之千变万化,虽然当前对海量数据处理已经有了较系统的研究,然而很难用一种通用的技术来解决复杂结构的海量数据的处理。面对现实世界中众多各具特色的数据,迫切的需要相应的技术来支持,特别是对结构较为复杂的数据处理的支持。基于以上描述,本文对复杂结构的海量数据处理做了深入研究。文中以两种复杂结构类型的数据为代表,详细讨论了如何基于MapReduce框架对各种复杂结构的海量数据进行高效的处理。重点研究了如何才能够使用一种通用模型直接支持于复杂结构的海量数据处理。着重从以下几点进行了研究。·分析了复杂结构的海量数据处理的迫切性与可行性。MapReduce比较适宜于海量数据的离线处理,但是该模型将输入数据作为简单的字符流读入。由于简单的字符流并不能表示数据的复杂结构,因此传统的MapReduce模型并不能直接用于复杂结构数据的处理。然而现实世界中越来越多的应用均为复杂结构的数据,因此迫切的需要复杂结构的数据处理技术。·实现了基于MapReduce的论坛图数据的分析性查询。论坛数据是本文研究的第一种类型的数据,同时也是最具典型性的复杂结构数据。现存的论坛数据分析技术大多基于数据的文本内容,而忽视了数据本身的结构信息。本文提出了一种新的海量数据分析和查询工具,作为CWI(Chinese Web Infrasture)的一部分,实现了对于论坛数据内容和结构的综合分析性查询。文中实现了在分布式的环境下对TLGM图的处理,并在此基础上,进一步实现了TLGM-QL的四个基本算子,并通过实验证明该方法具有良好的平衡性和可扩展性。·实现了基于MapReduce的移动对象轨迹数据的查询处理。移动对象的轨迹数据是本文研究的另一种类型的数据,同时也是最具典型性的时序数据。如何不破坏时序数据的特殊属性,而将其划分为若干部分分配到各个节点中分布式管理,同时在各个节点中高度并行的执行数据处理,是在云架构中首先需要解决的关键问题,其次是集群负载均衡等问题。本文中提出了一个通用的轨迹数据查询处理技术,使用了一种类MapReduce模型对各种非均匀分布的海量历史轨迹数据集进行均衡的划分,进而分配到集群中各个节点分布式管理且分别索引,同时提供了高效的大范围区域查询处理,同样也具有很高的平衡性和可扩展性。
其他文献
收集了燃气爆炸事故的资料,并从燃气的生产、运输和使用三个环节分析了这些事故发生的原因,在此基础上提出了燃气爆炸事故的防治对策
自然保护区的建立是为了保护自然环境和自然资源,保护生物的多样性,维持生态平衡,满足人类发展对自然条件和物质条件持续不断的需求,实现社会、经济、自然的可持续发展。同时
<正> 明末著名小说家冯梦龙编纂的“三言”,是我国古代的白话短篇小说的宝藏。《醒世恒言》即为其中之一。它以《卖油郎独占花魁》、《灌园叟晚逢仙女》、《乔太守乱点鸳鸯谱
利用有限元软件ANSYS建立了斜锥壳固定管板釜式重沸器的三维有限元模型,模型采用了Solid45、Beam188、Link10、Conta175和Tareg170等多种单元。利用ANSYS的MPC技术实现了实体
葛根素是一种多羟基黄酮类化合物,是临床治疗心脑血管病的常用药物之一。葛根素是P-gp的底物,这是造成其跨膜透过性低的重要原因之一。该药物口服吸收差,目前主要通过静脉注
“杀熟”现象的产生显示出当前社会的信任度已经降到最低点,它的大量出现对于我国特有的国情而言,不是偶然,而是有其社会根源的。在传统社会,我国的经济体制是自给自足的小农
本文以顺丁烯二酸酐、盐酸羟胺和脂肪胺合成了烷基胺基羟肟酸(AF-12),以盐酸羟胺和烷基芳基甲酸甲酯合成了烷基芳基羟肟酸螯合捕收剂(BF-4),系统地研究了上述两类捕收剂对一
松花江是我国七大河流之一,是黑龙江和吉林两省的母亲河,松花江汇入中俄界河黑龙江,黑龙江是我国最主要国际界河,其水质安全对维护国家利益、中俄两国关系和边境地区经济发展
目的:探讨临床护理路径在外科手术患者围术期预防下肢深静脉血栓形成中的护理效果。方法:将60例行外科手术治疗的患者随机分为对照组和观察组2组,每组30例,对照组按照常规护
<正> 许筠(1569—1618)字端甫,号蛟山、惺所、白月居士,是朝鲜李朝(1392—1910)的著名文士。万历二十六年,吴明济随明援朝抗倭军队来到朝鲜,一度住在汉城许家。许氏三兄弟中