【摘 要】
:
随着社会的发展和数据产生成本的下降,人类产生的数据量正在呈指数级增长,所以海量数据的分析逐渐被人们所关注。分布式计算被越来越广泛地应用到海量数据分析上,因为集中式
论文部分内容阅读
随着社会的发展和数据产生成本的下降,人类产生的数据量正在呈指数级增长,所以海量数据的分析逐渐被人们所关注。分布式计算被越来越广泛地应用到海量数据分析上,因为集中式的数据仓库在面对爆炸式增长的数据时不能提供较好的可扩展性,而利用分布式计算可以将一个任务分配到多个节点上并行执行,从而获得更好的执行效果。而google提出的map-reduce框架则为分布式计算提供了很好的框架,它是业界广泛认可的解决海量数据分析的有效工具。在map-reduce上执行多表连接的方法主要有两种,分别是层叠法和复制哈希法。但这两种方法都有各自的缺点,它们在某些情况下的效率会比较差。通过研究,本文提出一种将层叠法和复制哈希法相结合的方法(CRMJ)。在执行多连接的过程中,会对一些连接采用复制哈希法,而对另外一些连接采用层叠法,这样会取得比这两种方法都好的效果。采用这种方法会产生很多种执行计划,从而需要判断哪种执行计划所需执行代价最低,所以本文提出了两种寻优算法以找到最优执行计划。第一种是穷举法寻优算法。该算法使用连接图划分和递归思想近似遍历所有可能的执行计划,找到最优的执行计划,并进一步通过剪枝缩减搜索空间。但该种方法通过减枝进行优化所消耗的时间会随着连接表个数的增加而急剧增加,导致算法复杂度很高。第二种是基于贪婪的寻优算法。该算法在多连接的层叠法最优执行计划的基础上,寻找代价节省最多的复制哈希连接。应用该算法可以在较低的复杂度下找到近似最优的执行计划。经过实验验证,本文提出的CRMJ连接方法要比传统的层叠连接法有更高的执行效率。同时还通过实验说明:在连接表个数较少时穷举法最优执行计划选取的效果较好;而当连接表个数较多时贪婪寻优算法效果较好。
其他文献
作为信息科学和医学的前沿交叉研究领域,虚拟手术仿真系统的研究对降低临床外科手术风险、减少医生培训成本以及保护人体健康具有重大的现实意义和应用价值。借助这种虚拟手术
人类社会正在进入以网络为中心的信息时代,快捷、高效、功能齐全的信息服务模式是人们追求的目标。WWW的流行促进了互联网使用的指数增长,但是WWW的过量增长导致网站请求流量的
该文面向CSCW系统,研究组件的规划和设计,为基于组件技术开发CSCW系统提供基础和方法.该文分析了已有的CSCW系统体系结构模型的不足,归纳了CSCW系统的主要特征,并在此基础上
该文对群体决策支持系统(GDSS,Group Decision Support System)的历史、发展现状以及存在的问题进行了深入的分析,并在此基础上结合分布式计算技术、分布式人工智能(DAI,Dist
本文提出了一种基于(m,n)-门限方案和椭圆曲线密码体制的数据加密方案。在该方案中,用户分为单人用户和群组用户两种类型。群组用户是指由多个(不妨设为n个)参与者组成的一个集
无线传感器网络(Wireless Sensor Network, WSN)是由部署在监测区域内大量的微型传感器节点组成,通过无线通信方式形成的一个多跳的自组织的网络系统。它结合了计算、通信、
该文以新闻视频为基础研究了视频信息检索中的三个重要技术:视频的自动切分、注释及索引.在视频时充结构模型的基础上,提出一种新闻故事语义分割的新方法.首先,采用模糊c均值
人工智能的核心问题之一是如何表达已有知识以及如何应用已有知识进行分析处理或推理,以得到新的知识.该文主要研究两种基于概率的知识表达与推理方法——信度网和动态因果网
该文通过对现有的嵌入式Internet现方案的分析,提出了采用嵌入式网关实现控制网络接入Internet的方案.通过分析控制领域实现嵌入式Internet的特点和存在的问题,结合RTOS和嵌
随着分布式计算、并行计算、和网格计算的发展,云计算开始形成并不断地完善。云计算是基于虚拟化技术,将IT资源构成一个动态的虚拟资源池,以服务的形式供外界使用。虚拟化技