【摘 要】
:
随着数据爆炸式增长,如何及时有效地对大数据进行分析成为一项研究热点.连接算法在数据分析、数据库查询等众多领域具有广泛应用.非等值连接中的范围连接经常用于查找连接属
【机 构】
:
深圳市云计算关键技术与应用重点实验室(SPCCTA)(北京大学信息工程学院) 深圳518055
论文部分内容阅读
随着数据爆炸式增长,如何及时有效地对大数据进行分析成为一项研究热点.连接算法在数据分析、数据库查询等众多领域具有广泛应用.非等值连接中的范围连接经常用于查找连接属性值相差在一定范围内的记录,需要进行数据源间的笛卡尔积操作,目前大数据分析平台都没有提供对范围连接的支持.此外,数据倾斜在实际应用中普遍存在,导致并行系统负载不均,严重影响连接查询性能.为了解决这些问题,提出一种适用于大数据分析的抗倾斜范围连接算法(skew insensitive range join,SIRJ),通过桶划分方法进行范围连接,同时避免了数据倾斜带来的负载不均和内存溢出等问题.最后,在平衡数据集和倾斜数据集下进行了实验,通过与先进方法对比,验证了SIRJ算法在网络传输代价、运行时间和负载均衡等方面更具优势.
其他文献
在传统关系数据库上进行关键字查询已成为近来数据库领域的研究热点.然而,当数据源发生变化时,查询结果也有相应的变化,重新执行查询代价高.把查询结果更新转化为物化视图维
老年人、体弱多病者或处于恢复期的病人,都习惯用老母鸡炖汤喝,认为鸡汤的营养比鸡肉高。其实,鸡汤所含的营养比鸡肉要少得多。据研究,高胆固醇、高血压、肾脏功能较差者,胃
随着语义网上RDF数据的爆炸性增长,人们迫切需要可以高效存储和查询RDF数据的SPARQL执行引擎;与此同时,传统关系数据库经过数十年的研究发展,各项技术趋于完善,可以为SPARQL
自从2020年初,由于突发情况的影响,我国经济、教育、文化、卫生等各个方面都受到重大影响.教育的发展受到严重阻碍,讨论我国教育如何发展,其中职业教育,高职扩招200万备受关
公路现浇混凝土表面常会出现蜂窝、麻面、起砂、水纹、裂缝、跑模、施工接缝明显、拆模损伤、色泽不均等外观缺陷,在结构外形尺寸和混凝土内在质量满足设计和使用要求的前提
蔚然的烟瘾,是在不知不觉中染上的。最初只是好玩,一帮姐妹去迪厅玩时,各叼了一支烟,蔚然也不好太另类,便也偶尔跟着吸着玩。开始有了烟瘾,是在
Cigarette smoking is uncon
随着大数据时代的到来,数据正呈现量大、类型繁多、价值密度低等特征,因此快速且有效地发现异构数据中有价值的信息将极具挑战,其中,构建支持多种类型数据的索引是主要的研究
抽取数据的不确定性使得为why-not问题提供数据溯源解释变得越来越有必要.尽管已经提出了一些模型来得到why-not问题的最小化解释,但是当数据量很大时,这些模型的解释效率就
港口、 腹地、 港口供应链、 港口—腹地供应链与西部陆海新通道及其建设深深地“镶嵌”在一起.文献梳理进一步表明,港口—腹地供应链的合作或管理与西部陆海新通道的建设具
技术发展趋势 回顾过去一年网络应用的发展,我们不难看到,以IP为核心是网络技术发展的重点。包括普通数据、视频和话音在内的信息表达形式及相关的应用,已经开始聚集到交换