论文部分内容阅读
关系数据库技术在传统数据科学领域的研究已经比较完善,但是由于当前CPU计算能力与磁盘读写技术发展的不平衡,使I/O成为了传统数据库性能提升的瓶颈。此外,传统数据库也无法胜任非结构化数据类型的数据分析处理任务。随着大数据研究的日益深入,出现了各种新的数据查询处理方法。关系数据库和非关系型数据库技术相融合研究是数据科学、数据工程领域的研究热点,国内外研究学者进行了一些探索,仍然有很多关键问题有待解决。如何实现利用MapReduce分布式并行计算方法解决大数据查询处理,以及针对查询处理系统提出有效的查询优化策略是目前学术界普遍关注的问题。本文正是从利用MapReduce分布式并行计算的思想和方法入手,设计了新的面向大数据的查询分析处理方法,本文的研究工作概括为以下几个方面:一、在传统关系数据库查询代价估计模型基础上,设计了基于MapReduce的大数据并行处理的代价估计模型,并且针对不同的优化策略,分别设计了Hash连接环境,查询物化策略环境以及频繁查询环境下的代价估计优化模型。二、讨论了并行处理系统的查询优化控制问题。提出基于列存储的大数据分析系统物化策略。首先,通过引入MapReduce物化代价估计模型,深入分析影响物化效率的各个因素。在此基础上设计了MapReduce分布式环境下的面向物化策略的存储系统文件格式:MMF,在数据加载过程中采用协同定位策略实现对物化数据的存储优化;其次,分别针对不同的物化时机,构建了mapreduce早期物化策略,mapreduce延迟物化策略和mapreduce混合物化策略;然后,利用自适应物化调整策略对其做了进一步优化。三、针对传统关系型数据库在对大数据访问操作时,系统性能严重下降,计算效率提升有限以及可扩展性差等问题,引入mapreduce并行计算模型,设计了大数据上基于列存储的mapreduce并行连接算法。首先,设计了面向大数据的分布式计算模型,其次,使用了分片聚集和子连接启发式优化方法实现大数据在mapreduce分布式环境下并行连接算法。四、设计了大数据上基于列存储的支持负载数据偏斜动态探测的mapreduce分布式hash连接算法。首先,建立了面向大数据的分布式计算模型,在此基础上设计了mapreduce环境下的哈希分布式存储系统;其次,在数据加载过程中采用协同定位策略实现对数据分布的优化,减少数据偏斜的出现;然后,在设计的分片聚集并行连接基础上,利用hash连接以及动态探测方法优化了数据连接处理效率。五、通过讨论并行处理系统的调度优化控制问题,设计了面向大数据频繁查询工作负载的优化方法。首先,建立频繁查询模型,分析了mapreduce环境下影响频繁查询效率各种因素。其次,设计了基于mapreduce一致性窗口分片算法,不仅为频繁查询集合创建更多的重用机会,而且通过对输入数据这样的精细粒度调度,可以大大减少冗余数据加载。然后,在数据调度方面,利用mapreduce延迟调度策略,提高数据处理吞吐量,优化mapreduce集群计算资源分配,通过mapreduce频繁查询数据重用策略,构造最佳的数据重用调度执行计划。最后,开发了基于hadoop的算法测试原型系统hcms对所提方法进行逐一验证。实验结果在证明算法有效的同时,也能提供良好的可扩展性。通过分析证明算法在执行时间、在存储空间和负载能力上,都有很好的表现。