论文部分内容阅读
地震数据是一种由地壳震动产生的数字信号,被人们常用作探究地下岩土结构,以及寻找油气资源的一种媒介,其价值意义是不可估量的。随着科技发展,越来越多的人工地震实验被开展,随着每一次成本较高的野外试验完成都会产生大量的地震数据回收到数据处理中心,所以,对于数据中心而言数据的存储以及处理环节的重要性是毋庸置疑的。文章首先介绍了数据处理中心从数据回收到数据处理的相关流程,以及数据中心目前在地震数据存储、提取、处理三个方面所存在的问题,分析了在大数据环境下,以传统方式存储和处理地震数据的效率低下问题。随着地震数据的不断倍增,传统串行工作方式已不能高效率地完成地震数据处理工作,面对这写严峻的问题,在数据处理中心现有的硬件基础上,本文提出了基于Hadoop的地震数据处理方法,通过分布式并行计算的方式充分利用集群性能来提高数据存储的冗余性和数据处理的高效性。面对这个问题,本文首先提出了采用Hadoop的分布式框架来解决大数据带来的数据计算压力问题的方案,将现有的多个服务器构建成集群的方式形成分布式系统来实现并行计算,以其特有的MapReduce并行计算模型来实现数据分块处理,通过这种方式来解决一台工作站的性能瓶颈。进而选用地震数据转换这一任务案例来充分体现Hadoop在大数据环境下的处理优势,采用不同处理方式进行数据转换效率分析,并将实验结果进行对比,展现出Hadoop在大数据环境下处理的巨大优势。通过数据转换案例的实验结果对比进一步提出基于Hadoop的分布式并行架构也适用于数据中心正在进行的地震数据背景噪声处理算法,并从接下来章节分别从数据存储、查询、提取各方面效率最大化来设计实现基于私有云计算的地震数据处理方法。在地震数据存储方面,由于数据存储在SAN磁盘中,所以其安全性和冗余性存在较大隐患,并且只能通过串行I/O方式进行数据提取导致无法更好地满足客户端提取数据高效性的要求,因此提出了地震数据分布式存储的方案。通过与RDBMS的对比,充分展现地震数据分布式存储的各项优势,进而设计并实现了数据存储结构模式和相关机制方法。通过对Hadoop分布式数据库HBase的研究,了解到数据分布式存储引进了影响客户端查询效率的问题,所以,为了更高效地进行后续地震数据处理环节,进一步仔细研究其影响查询效率的因素,最终通过HBase扩展的协处理器来实现数据表的二级索引查询,提高客户端数据查询速度,有效地弥补了地震数据分布式存储带来的一些查询方面的不足。解决查询问题的同时,在数据分布式的存储环境下进一步设计并实现了基于MapReduce的地震数据快速提取,这一方案大大提高了客户端通过传统串行I/O方式进行数据提取的效率,为下一步高效的进行地震数据背景噪声处理奠定基础。在实现地震数据分布式存储和基于MapReduce高效数据并行提取的条件下,最后一章设计并实现了基于私有云计算的地震数据背景噪声处理算法,采用Hadoop集群模式进行分布式并行处理,在实现的同时进一步分析MapReduce作业节点对数据处理效率的影响因素,通过实验对比Hadoop与传统串行方式的处理效率并得出相关结论。充分体现大数据环境下Hadoop的巨大优势。