论文部分内容阅读
随着经济的飞速发展,互联网存储技术日益成熟,智能交通领域得到空前进步,以海量交通流数据为基础的智能交通技术得到业界广泛关注。交通数据采集技术迅速完善,采集手段多样化,数据量激增。我国沿海地区一个中型规模城市每天产生数千万条交通流数据,每年汇集的数据量达到数百TB级。面对如此庞大的数据量,必须对其所搭载的系统进行优化,以适应实际应用需求。Hadoop作为较成熟的海量数据处理计算框架,其核心HDFS和MapReduce为用户提供了高效的数据存储能力和分布式计算模型。HBase分布式数据库采用Hadoop的分布式文件系统实现存储功能,支持Hadoop并行计算框架,使用HBase作为海量数据的存储媒介,具有更稳定的可靠性和数据检索能力。为解决传统关系型数据库进行海量数据读写时普遍性能低下的缺陷,本文致力于研究基于HBase的交通流数据实时存储与查询优化方案,实现交通工程中对数据的实时处理要求,主要内容和创新点如下:(1)本文以道路车辆信息数据为模型,分别针对数据存储和查询两个方面,设计出一种基于HBase的集群架构模型和优化方案。(2)数据存储方面,本文分析交通流数据特征设计了HBase复合主键存储模型。首先介绍了一种依据数据特征社群进行分片的Region预分区策略用以解决Region拆分导致的数据“热点”问题。其次,为了解决集群节点变更导致的数据丢失问题,提出了一种基于散列技术和一致性哈希算法的存储调度算法。然后,对于数据缓冲和数据写入给出具体的实现方案,最后,本文从数据写入性能和缓冲队列写入阈值测试两个方面进行实验,验证本优化方案中数据查询模块相比现有数据存储模块具有更好的性能。(3)数据查询方面,本文利用Redis分布式集群服务器和本地磁盘设计了多级缓存策略并给出了实现方案。本文首先提出了一种Redis分布式缓存服务器系统架构,设计一种缓存记录值存储模型。然后,根据访问频率的不同引入热度值的概念,设计出一种基于热度积累的缓存淘汰算法。最后,本文从数据读取效率和缓存淘汰策略对比两个方面进行实验,验证使用当前优化方案的交通流数据查询相比现有查询方案具有更高的查询效率。