面向分布式环境的数据存储布局与查询优化技术

来源 :复旦大学 | 被引量 : 0次 | 上传用户:yjxff520
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
对于当前的海量数据分析或处理,数据通常存储在大规模集群的分布式文件系统(如GFS、HDFS)上。这些文件系统提供了对数据的便捷管理、高效访问以及容错性和扩展性。基于GFS和HDFS的MapReduce编程框架具有简单、通用的特点,通常应用于大规模数据的分析或处理。  本文实现了一种在分布式环境下的数据布局策略,将一个集中式与分布式相结合的两级索引结构部署在分布式文件系统HDFS上,实现了基于格雷码的数据布局策略,使各类选择查询(如部分匹配查询、多维范围查询和多属性范围查询等)的顺序访问的比率大幅提升。另外,对于二元关系运算连接查询,虽然Hadoop提供了默认的关系连接机制,但这种方法需要对大量的数据进行排序和传输,将带来很高的时间代价,而且多个关系表的连接在Hadoop缺省连接中也不能得到直接支持。因此我们提出了一种全新的非对称连接策略,不仅能够与本文实现的数据布局策略相兼容,而且避免了Hadoop缺省连接的诸多开销较大的因素,并能在一个MapReduce作业中有效地完成多个关系的连接。  最后,本文通过实验,给出了存储布局策略和查询优化方法的时间和空间代价,验证了本文提出方法的有效性和高效性。
其他文献
科学技术是极具传承性的事业,任何一个科技工作者要取得好的进展,都离不开前人或他人的经验和成果。近年来,随着计算机、生物、化学、医药等领域的研究成果发布周期越来越短,
随着Internet的快速发展,越来越多的人们在网络上搜索需要的信息。然而,在互联网上,几乎所有的网页都包含着与主题无关的噪音信息,比如广告条、导航栏等。它们严重影响着搜索
搜索引擎旨在帮助用户有效的获取信息。现有的搜索引擎,存在精度不高,查全率偏低的缺点,迫切需要新的搜索模型的出现,语义搜索就是尝试之一。   鉴于已有语义搜索模型存在的问
专家系统是人工智能中一个正在发展着的研究领域,虽然目前已经有许多专家系统相继问世,并在各自不同的领域中发挥着重要作用,取得了巨大的经济效益及社会效益,但无论是在理论
随着信息技术、计算技术的发展,计算模式正发生着深刻的变革,已经逐渐从传统分布式移动计算发展到普适计算模式。普适计算的本质特征是融合物理空间和信息空间,为人提供透明
随着互联网技术的飞速发展,网络应用十分广泛,已经渗透到了各行各业。网络在快捷、方便的带来大量信息的同时,也带来了诸多安全问题。其中木马技术由于远程控制性、隐蔽性等
随着计算机与信息技术的普及和大容量存储技术的发展,人们在日常事务处理和科学研究中逐渐积累了大量宝贵数据,这些数据背后蕴藏着对决策有重要参考价值的消息。如何从这些历
随着我国金融行业的蓬勃发展,银行对于金融自助设备的要求越来越高。为了使金融自助设备更具人性化和灵活性,并避免依赖一个厂商生产的产品,各银行纷纷按照自己的业务需要或
无线传感器网络是利用部署在监测区域内大量的传感器节点组成的一个多跳自组织的网络,在国防军事、工业控制、城市管理、医疗卫生、环境检测、抢险救灾等领域有潜在的应用。
随着分布式环境下共享资源计算和协同服务的需求逐渐增多,这要求软件系统的开发、部署、运行、维护在日渐开放、动态、难控的网络环境中。因Agent具有反应性、自治性、社会性