论文部分内容阅读
关系型数据具有明确的类型和结构并且易于使用,因此在企业中发挥重要作用。关系型数据库是当前处理关系型数据的主要工具。各大企业往往把诸如员工信息、交易记录、订单信息等关键数据以二维表的形式存储和记录在关系型数据库中,并采用标准数据查询语言SQL执行关系数据库中数据的检索和操作。然而随着大数据时代的到来,关系型数据也面临着许多诸如体量大、数据种类多样和数据量增长迅速等新特性。传统关系型数据库在数据处理能力和数据检索性能方面逐渐无法满足大数据的需求。因此,传统的关系型数据处理技术正面临新的挑战。针对以上问题,许多科研工作者提出新的技术以满足结构化大数据的需求。最具有代表性的是将MPP并行查询引擎同分布式文件系统相结合结构化大数据解决方案。然而,基于以上解决方案的各种应用的数据处理效率仍然较为低下,性能仍存在较大优化空间。论文针对当前结构化大数据应用性能低下的问题,结合结构化大数据查询任务的特点,提出多种优化技术,以提高结构化数据查询任务的执行效率。首先,论文针对真实应用场景中查询请求高并发性的特点,提出了一种共享查询请求机制,将面向相同数据的原始查询请求合并为共享查询请求。由共享查询请求从硬盘中将数据读取到内存中,原始查询请求从内存中获取各自数据。其次,论文针对当前各应用中对节点间性能差异考虑不足的情况,提出了一种基于时间预测模型的I/O调度方法。通过建立数学模型来来对各节点任务完成时间进行大致预测,并按照预测结果对I/O请求进行调度。最终使得集群内各节点负载更加均衡,以此减低整个集群任务执行的时间。最后,论文针对数据重复查询问题,提出了一种相似查询行为结果复用方法。相似的查询行为可直接从缓存中读取数据,有效避免了在硬盘中重复读取数据的过程。经过测试对比,论文提出的查询优化技术克服了当前应用的诸多缺陷,再带来可接受的内存和硬盘空间开销的同时,对结构化数据查询任务性能提升明显,具有一定的实际意义。