论文部分内容阅读
如今,水文监测数据的规模越发庞大,已经远远超出传统水文监测数据处理的范畴。这其中主要表现在两大方面:首先,产生的各种水文监测数据种类十分多样,并且规模庞大,传统的关系型数据库已经无法满足其存储与管理分析的需求。其次,传统的基于单机的并行化水文监测数据处理方式不仅容错率低,同时性能也十分低下,已经不再适合大规模水文监测数据的处理。因此,为了解决这些问题,需要找到更好地方案。在研究云平台下的水文监测数据共享模式中,本文主要解决了三个关键问题。首先是水文监测数据存储的问题。本文将水文监测数据分成两种类型进行存储,对于结构化的水文监测数据设计存储于HBase数据库中;对于非结构化的水文监测数据,存储于HDFS中,通过Hive数据仓库进行分析管理。其次是数据传输共享问题,如何在保证海量数据的安全性和完整性的基础上,保证数据共享过程中的传输性能,本文采用基于消息分发策略的Kafka流式处理模型进行水文数据共享;最后是数据分析挖掘问题,如何设计实现数据目录索引服务等,为数据挖掘提供平台基础,本文对于HBase建立非主键索引。本文利用当前使用最广泛的Hadoop技术,搭建了水文监测数据云平台,并在此基础上,实现了对水文监测数据的共享,接着针对HBase实现非主键索引,水文元数据管理,从而形成了一套完整的水文监测数据目录系统,为水文监测数据的挖掘与分析奠定了平台基础。通过实验进行分析验证,本文所设计实现的水文监测数据共享云平台可以很好地实现对于水文监测数据的集成共享。