【摘 要】
:
大数据时代,由中低端硬件组成的大规模机群逐渐成为海量数据处理的主流平台之一.然而传统基于高端硬件平台设计的并行OLAP查询算法并不适应这种由不可靠计算单元组成的大规模
【机 构】
:
数据工程与知识工程教育部重点实验室(中国人民大学),中国人民大学信息学院,中国人民大学中国调查与数据中心
【基金项目】
:
国家“九七三”重点基础研究发展规划项目基金(2014CB340403);国家重大科技专项基金(核高基项目2010ZX01042-001-002);国家自然科学基金(61170013;61272138);中国人民大学科学研究基金(中央高校基本科研业务费专项资金(10XNI018))资助~~
论文部分内容阅读
大数据时代,由中低端硬件组成的大规模机群逐渐成为海量数据处理的主流平台之一.然而传统基于高端硬件平台设计的并行OLAP查询算法并不适应这种由不可靠计算单元组成的大规模并行计算的环境.为改善其在新计算环境下的的扩展性和容错性,该文对传统数据仓库的数据组织模式及处理模式进行改造,提出了全新的无连接雪花模型和TRM执行模型.无连接雪花模型基于层次编码技术,将维表层次等关键信息压缩进事实表,使得事实表可以独立处理数据,从数据模型层保证了数据计算的独立性;TRM执行模型将OLAP查询的处理抽象为Transform、Reduce、Merge 3个操作,使得OLAP查询可被划分为众多可并行执行的独立子任务,从执行层保证了系统的高度可扩展特性.在性能优化方面,该文提出了Scan-index扫描和跳跃式扫描算法,以尽可能地减少I/O访问操作;设计了并行谓词判断、批量谓词判断等优化算法,以加速本地计算速度.实验表明:LaScOLAP原型可以获得较好的扩展性和容错性,其性能比HadoopDB高出一个数量级.
其他文献
基于职业学校体育教学质量下滑的现状,笔者通过文献资料法、归纳与提炼法找出提高职校体育教学有效性的策略。文章着重对教师的观念、专业素质、教学内容选择与设计、教法选
我国竹亚科空竹属(Cephalostachyum Munro)植物发现于云南和西藏两省区,集中分布于云南。根据形态学性状,以及近年来叶片微形态和分子系统学研究结果,作者对我国空竹属物种进
《小学数学课程标准》指出:“小学生数学学习内容应当是现实的、有意义的、富有挑战性的.学生的数学学习活动应当是一个生动活泼的、主动的和富有个性的过程。”当前.我们很多数
模拟胃酸环境,检测麦芽、小麦和麦麸3种提取物及葡萄糖和游离氨基氮对乳酸杆菌耐酸性能的影响.4株乳酸杆菌分别在pH2.5的模拟胃酸环境中处理3h,在不同时间取样测定活菌数.结
新媒体蓬勃发展的时代,与此同时,传统媒体正面临着机遇与挑战,要在激烈变局的媒体环境里与新媒体竞争生存,传统媒体不要妄自菲薄,自轻自贱,要认清自己的优势,也要看到自身的
本文考察了我国财政农业支出规模、结构及其存在的问题,并通过构建二次相对效益模型对我国当前财政农业支出的绩效进行了评价。分析表明,我国财政农业支出不仅相对规模偏小和
改革开放30年来,我国农村教育的发展与农村教育政策的调整与变革相联系。30年农村教育政策的演进与变迁大体经历了三个阶段,有其自身的演进路向和变迁途径。1978—1984年,农
自动驾驶是一场需要持续巨额投入的'烧钱'比赛。其路之曲折超出了很多人想象,无论是L3还是L4汽车的量产都面临诸多难题。
采用Ti、Si、TiC、金刚石磨料为原料,通过放电等离子烧结(SPS),制备了Ti3SiC2陶瓷结合剂金刚石材料.研究结果表明,Ti-Si-2TiC试样经SPS加热的过程中位移、位移率和真空度在12
工程造价管理是工程项目开展的重要环节,并且受到多方面因素的影响。本文首先对影响工程造价的生产力、市场、体制、管理等因素进行分析,然后系统论述工程造价存在的问题,并