论文部分内容阅读
地震资料是典型的大规模静态数据集,即由海量特定的记录或数据块组成的数据集合,因规模庞大一般存储于分布式文件系统中,这些数据一旦写入便很少再修改。它有多种不同的存储格式,应用程序若为每一种格式都应开发一套接口会有很多不便,不仅自身的代码量会大大增加,其灵活性、可移植性、可扩展性都会受到很大的限制。为解决上述问题,人们研究了多种解决方案,其中“多格式海量数据统一存取”方案提出为数据建立统一的逻辑描述方式,通过对逻辑层标准化接口的操作实现对物理数据的统一访问。这种设计在具有良好的灵活性的同时也由于在物理层和应用层间添加了逻辑层,增加了操作步骤,存在着效率降低的弊端。本文依据地震资料的特点,优化了地震数据统一存取(Unified access of the seismic data,UASD)模型中逻辑层的索引结构,提出了基于UASD的分布式索引框架。同时提出了基于HDFS的一种的可适用于B-树和R-树及其变种的层次索引结构,并给出了索引结构的并行构建方式。研究分析地震资料的统一存取模型,对模型中逻辑层的索引结构进行优化,提取出可快速定位的索引公式。提出基于UASD和HDFS的分布式索引架构,以提高UASD的索引性能。提出基于地震道头关键字的分级建索策略,避免非活跃关键字索引占用空间及维护的开销。研究分析海量数据中常用索引机制,提出基于HDFS的一种可适用于B-树和R-树及其变种的层次索引结构,改变键-值存储结构在非主键索引过程中的劣势。提出层次索引的并行建立方法,加快索引构建速度。最后综合本文的研究内容,介绍UASD模式在地震资料并行处理平台中的应用,以此来验证本文提出的相关技术和算法的可行性和有效性。实验表明,该系列方法减少了查询响应时间、索引空间占用和数据传输开销,有效的提高了UASD的索引性能。