基于元数据分布式查询与优化方法的应用研究

被引量 : 5次 | 上传用户:a504468075
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着数据和业务的复杂化,查询满足条件的数据也会越来越复杂,当向分布式数据源查询信息时,编程人员需要了解各种数据的存储位置,存储方式和存储结构,需要调用很多接口来获取相关数据。这通常需要花费大量的编程精力,并要求编程人员对数据接口具有较高的熟悉程度。如果能够向程序员提供统一的数据编程接口,屏蔽后端存取细节,将大大地提高程序员的编程效率。本课题研究了一种基于元数据的分布式查询方法,运用元数据定义和管理各数据源关键信息的虚拟表。然后针对数据量级的不同,设计了小数据和大数据这两种不同的查询以及优化方案。在小数据查询方而,利用虚拟表、语法分析树和内存数据库实现小数据查询,通过复制、移动和分割虚拟SQL查询语法树分支进行优化。在大数据查询方而,运用Pig、Hadoop、python来实现大数据查询;通过优化Pig代码,使用多进程处理HDFS勺小文件合并及文件上传下载,对高频业务建立索引等来实现大数据的优化。利用元数据信息构建虚拟表,实现对分布式数据源的统一查询;利有LEMON语法解析器行用户提交的针对虚拟表的SQL语句进行语法分析和语法检测。在小数据查询方面,利用语法树进行语义优化;利用内存数据库实现多数据源结果集合并。在大数据查询方面,利用Pig脚本提交任务;Hadoop实现分布式计算和查询;通过多进程处理HDFS小文件的合并以及文件的上传下载来减少NameNode节点的负载,提升上传下载的速度;对高频业务建立索引,能快速查找数据,减少数据加载量实现了数据查询的优化,达到了优化目的。本课题的研究方法屏蔽了分布式数据源查询的复杂细节,能够为用户提供一个统一、简便的SQL查询接口,使分布式数据的联合查询更加便捷,有效地提高了联合查询的执行效率。
其他文献
目的探讨关节镜下持续冲洗治疗膝关节感染的临床效果,以期提高临床治疗水平。方法回顾性分析2011年3月-2013年2月56例膝关节炎感染患者,分为两组,各28例,对照组予以传统的关
目的 探讨七氟醚在开颅血肿清除术中维持麻醉的临床效果;方法 选择因高血压脑出血入住我院并接受开颅血肿清除术患者68例,依照随机数字表法分为七氟醚组(n=34)与对照组(n=34)组。
目的探讨小儿支气管哮喘急性发作与肺炎支原体(MP)感染之间的相关性,为小儿支气管哮喘急性发作的诊治提供参考依据。方法对324例小儿支气管哮喘急性发作期患儿(哮喘组)与100
材料的阻燃是长期以来科学研究中的重要课题。传统卤素阻燃剂在阻燃过程中会产生有毒物质,为了满足目前对环境保护的要求,阻燃剂的无卤化已成为发展趋势。近年来,含磷阻燃剂
本文是一篇翻译实践报告,项目的原文选自美国神经外科医生保罗·卡兰尼斯(Paul Kalanithi)在病榻之上写就的遗世之作——When Breath Becomes Air(《当呼吸成为奢求》)的第二
美国国家研究理事会于2011年7月发布了《K-12年级科学教育框架:实践、交叉概念和核心概念》(以下简称“框架”),其中实践被放在科学教育的首位。“框架”还描述了学生在科学课堂
随着科学技术与工艺生产的迅猛发展,城市功能以及生活水平都发生了巨大的变化,大城市的商业区改造也在酝酿着一场概念化的更新。在当代,城市的缩影像一座巨大的建筑,而建筑的发展
目的对维持性血液透析(MHD)患者感染病原菌进行分析,对抗菌药物治疗效果进行评价。方法选择2012年1月-2013年3月维持性血液透析患者发生感染的80例患者资料进行分析,所有患者
通过讨论当前加工线三种平面布置的方式在投资、机床开动率、生产线运行成本的各种优缺点,创新设计一种新的平面布置,这种新的平面布置在投资、机床开动率、生产线运行成本三
企业所得税,顾名思义,就是对企业的各项所得按所得数额来进行征收的一种税款。企业所得税数额的大小与企业的经济利益直接挂钩,关系到企业切身利益。所以现代企业也非常重视