论文部分内容阅读
近年以来,大数据处理的问题一直困扰着整个计算机界。尤其是World Wide Web诞生以后,互联网尤其是中国互联网飞速发展,各种类型的数据爆炸式增长。如今,传统的集中式数据库得到了广泛的应用,几乎无处不在。然而经过学术界广泛研究和工业界长期实践发现传统的集中式数据管理技术正逐渐向着少数大公司相继建立的基于云架构的数据中心演变。在此背景之下,如何在大型的数据中心中存储、索引和组织海量的数据已经成为当今全世界迫切需要解决的难题。海量数据的管理问题已经引起了全世界学术界和工业界的广泛关注。计算机应用的种类不断增加,海量数据的结构类型也随之千变万化,虽然当前对海量数据处理已经有了较系统的研究,然而很难用一种通用的技术来解决复杂结构的海量数据的处理。面对现实世界中众多各具特色的数据,迫切的需要相应的技术来支持,特别是对结构较为复杂的数据处理的支持。基于以上描述,本文对复杂结构的海量数据处理做了深入研究。文中以两种复杂结构类型的数据为代表,详细讨论了如何基于MapReduce框架对各种复杂结构的海量数据进行高效的处理。重点研究了如何才能够使用一种通用模型直接支持于复杂结构的海量数据处理。着重从以下几点进行了研究。·分析了复杂结构的海量数据处理的迫切性与可行性。MapReduce比较适宜于海量数据的离线处理,但是该模型将输入数据作为简单的字符流读入。由于简单的字符流并不能表示数据的复杂结构,因此传统的MapReduce模型并不能直接用于复杂结构数据的处理。然而现实世界中越来越多的应用均为复杂结构的数据,因此迫切的需要复杂结构的数据处理技术。·实现了基于MapReduce的论坛图数据的分析性查询。论坛数据是本文研究的第一种类型的数据,同时也是最具典型性的复杂结构数据。现存的论坛数据分析技术大多基于数据的文本内容,而忽视了数据本身的结构信息。本文提出了一种新的海量数据分析和查询工具,作为CWI(Chinese Web Infrasture)的一部分,实现了对于论坛数据内容和结构的综合分析性查询。文中实现了在分布式的环境下对TLGM图的处理,并在此基础上,进一步实现了TLGM-QL的四个基本算子,并通过实验证明该方法具有良好的平衡性和可扩展性。·实现了基于MapReduce的移动对象轨迹数据的查询处理。移动对象的轨迹数据是本文研究的另一种类型的数据,同时也是最具典型性的时序数据。如何不破坏时序数据的特殊属性,而将其划分为若干部分分配到各个节点中分布式管理,同时在各个节点中高度并行的执行数据处理,是在云架构中首先需要解决的关键问题,其次是集群负载均衡等问题。本文中提出了一个通用的轨迹数据查询处理技术,使用了一种类MapReduce模型对各种非均匀分布的海量历史轨迹数据集进行均衡的划分,进而分配到集群中各个节点分布式管理且分别索引,同时提供了高效的大范围区域查询处理,同样也具有很高的平衡性和可扩展性。