基于Hadoop平台的事实并行处理算法

来源 :计算机工程 | 被引量 : 0次 | 上传用户:chenming000
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
针对传统的抽取、转换和加载工具在面临数据仓库中海量事实数据时效率较低的问题,从事实表查找代理键和多粒度事实预聚合2个角度出发,提出在渐变维度表上的多路并行查找算法和在不同粒度上对事实数据进行聚合的算法。第1种算法综合考虑了渐变维度和大维度的情况,运用分布式缓存方法将小维度表复制到各个数据节点的内存中,同时对事实数据和大维度数据采用相同的分区函数进行分区,从而解决内存不足的问题,在Map阶段实现多路查找代理键,避免由于数据传输产生的网络延迟。第2种算法在Reduce阶段之后增加Merge阶段,可有效解决事实
其他文献
转换与化归思想是解决问题的一种基本而有效的思想方法,在中学数学解题思想中占据重要地位,也是高考重点考查的思想方法之一。所谓转换与化归思想,就是在研究和解决有关数学问题
财政部于2006年发布了39项会计准则,新企业会计准则体系将于2007年1月1日起在上市公司率先施行,并鼓励其他企业执行。与现行17项会计准则相比,新企业会计准则体系由一项基本准则
为实现多应用环境下的高迷摄像,提出一种面阵行间转移电荷耦合器件(CCD)多工作模式的设计方法。根据面阵CCD芯片KAI-0340D的工作原理,结合其内部结构特点和双通道数据传输方式,分
为提高高清视频拼接的实时性能,提出一种基于GPU的多路高清YUV视频实时拼接方法,推导出YUV422图像拼接中的透视模型,并结合计算统一设备架构技术,实现透视变换、无缝融合等关键拼接步骤在GPU上的并行优化。在4路1080p高清视频上的实验结果表明,相比基于RGB颜色模型的拼接方法,该方法的实时拼接性能在不同GPU架构上有20%~40%的提升,并且在GRX780上能达到33 frame/s的视频帧
在常规海量数据分析作业中,CPU/IO密集型的查询语句通常复杂、耗时并存在大量可复用的公共部分。如何检测、共享和复用回归查询集中语句间的公共部分成为亟需解决的问题。为