论文部分内容阅读
随着互联网行业的高速发展,以及“大数据”、“云计算”等概念的普及,数据的爆炸性增长在大容量、多样性和高增速方面,全面考验着现代企业的数据处理能力。对于已经成熟的传统数据库技术来说,计算机网络技术的快速发展以及行业应用的扩展需求使得传统数据库技术在很多使用场景下受到了很多新的挑战。在这个形势下,分布式数据库和内存数据库的概念应运而生。分布式数据库相对于传统集中式的数据库具有良好的灵活性与可扩展性、在处理海量数据时在性能上和可靠性上有着更大的优势。而内存数据库则是将要处理的数据存储在内存而不是磁盘中,因此其读写性能要比磁盘访问高出几个数量级,从而极大地提高性能。将分布式和内存访问结合在一起的分布式内存数据库可以兼顾可扩展性和高速访问两个特点,在当前形势下为用户提供更多的功能。相比于磁盘来说,内存是很宝贵的资源,因此在大部分场景下分布式内存数据库在生产业务中主要扮演的是计算平台的角色,并不作为存储数据的主数据库,其数据很多还是存储在传统磁盘数据库中。如何将存储在传统磁盘数据库中的海量结构化数据快速加载到内存中是分布式内存数据库首先要解决的问题。针对这个问题,本论文提供了一个将存储在磁盘型数据库中的结构化数据快速加载到分布式内存数据库系统中的解决方案。首先针对原有的结构化数据提供了一套新式的快速索引模型,能够实现数据的高效存储和快速查询。然后通过分布式系统的方式把原始的结构化数据建立成内存数据索引并加载到分布式内存数据库存储引擎中。除此之外,该解决方案能够支持用户喜好数据的数据过滤,并提供增量数据更新功能。论文的主要研究工作包含以下几点:1、设计出一种针对内存数据库的内存数据索引模型,实现数据的高效存储和快速查询。该索引模型基于列式数据存储,可以对原有数据进行压缩并提供快速的查询效率。2、根据内存数据索引模型,设计分布式内存数据库数据并行快速加载方案,将存储在外部数据库中的传统结构化数据加载到分布式内存数据库引擎中。该方案能根据用户喜好对数据进行过滤,然后创建内存数据索引,然后根据一定策略将数据加载到分布式内存数据库引擎中。3、在数据全量加载的基础上设计数据增量加载策略,根据一定的策略进行数据的增量加载,保持分布式内存数据库系统与外部数据库中的数据同步。4、采用分布式架构进行海量结构化数据的并行读取,可以提高数据处理速度、缓解节点负载压力和提高节点安全性,提高数据加载的速度和稳定性。