【摘 要】
:
大数据不仅需要海量存储的系统,而且需要高速的数据加载、快速的查询处理、存储空间的高利用率以及适应动态高负载。由于传统关系型数据库在管理大数据时遇到各种困难和阻碍,新
论文部分内容阅读
大数据不仅需要海量存储的系统,而且需要高速的数据加载、快速的查询处理、存储空间的高利用率以及适应动态高负载。由于传统关系型数据库在管理大数据时遇到各种困难和阻碍,新型分布式系统应运而生。但在大数据存储和查询仍有不足之处,本文从数据存储结构和MapReduce作业相关性两个方面对分布式系统下大数据存储结构及查询优化分析研究。在分布式系统中,数据存储结构直接影响大数据的存储效率和处理性能。行式存储结构下,数据从本地读取,加载速度快,但压缩效率低且加载了多余数据;列式存储结构下,数据压缩效率高,但数据跨节点访问增加了网络传输消耗。针对行式存储结构和列式存储结构的特点,提出一种以行列结合的存储方式,对数据存储结构进行改进。通过理论比较分析,行列结合存储在数据加载速度上略低于行式存储;在数据压缩效率上,比行式存储和列式存储的效率都高。行列结合的存储结构不仅避免行式存储的额外磁盘I/O开销,同时也减少了列式存储不必要的网络传输,极大地提高分布式系统对大数据存储效率及处理性能。现有翻译方式在复杂SQL查询时存在的低性能问题,其原因是忽略了MapReduce作业间的相关性,产生了大量冗余操作,消耗不必要的资源,从而急剧降低了查询性能。本文从输入相关性,数据转换相关性,作业流相关性三个方面对翻译结果进行优化改进,并给出优化条件和优化规则,合并冗余的MapReduce作业以减少不必要的资源消耗,从而提高大数据查询速度。
其他文献
美国诗人罗伯特.弗罗斯特的著名诗歌《修墙》通常被理解为诗人意欲打破人际间隔阂之墙的呐喊。综观诗人的诗歌,并结合诗人的生平,我们惊讶地发现他的一生充满了苦难和坎坷,在
经济全球化的趋势促进了中国经济的高速发展,同时,城镇化和工业化也取得了巨大的成功,2010年GDP总量已经超过日本,跃居世界第二。但是经济发展的背后,是资源环境的巨大代价。经济
土壤是人类赖以生存的一个重要环境因素,自古没有一个种族可以离开土壤而生存下来。长期以来,由于土壤污染的滞后性等因素一直被公众所忽略。随着近年,环境污染事件的频发,土
<正>《西湖》是苏教版三年级上册的一篇写景散文,作者主要通过清新流畅的语言为读者描绘了西湖的秀丽景色。初读课文,也许你会觉得没有什么,但是细细品来,从文本的字里行间不
当前,国际贸易快速发展,全球经济一体化进程不断加快,世界各国对于国际贸易安全性与物流通关便利性的需求越来越迫切。对此,发达国家纷纷建立起不同类型的口岸单一窗口,借以
<正>营业税的纳税人为在中华人民共和国境内提供营业税条例规定的劳务、转让无形资产或者销售不动产的单位和个人。进行营业税税收筹划
经贸英语是英语的一种功能变体,涉及国际贸易、金融、会计、法律、广告等多个领域。随着交通条件的改善,全球经济一体化的深入,经贸英语在其中发挥的作用也越发凸显。经贸英
初中化学是初中教学的一门重要学科,相对于其他学科,初中化学的学习时间短,内容复杂,学生学习难度较大,很多初中生在学习过程中都感到吃力。然而初中化学衔接着学生的高中化
低温甲醇洗工艺过程是目前比较流行的一种酸性气体净化工艺,在合成氨、合成甲醇以及城市煤气净化中都得到了广泛的应用。该工艺过程具有选择性好,吸收剂价格低廉、再生容易等优
新时期英语专业的建设与发展要主动适应学科发展的需要,适应国家经济建设和社会发展的需要,适应学生个性发展的需求,实现四个转变:(1)从以语言形式为主的必修课向以专业内容