基于MapReduce的Skyline查询算法研究

来源 :湖南大学 | 被引量 : 0次 | 上传用户:qmail03
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着数据库和存储技术的飞速发展,人们可采集和利用的数据规模到达了空前的水平,如何从中迅速而且准确的找到有用的信息,成为一个急需解决的问题。Skyline查询的目的是从多维数据集中找到那些不被其他数据所支配的数据,在数据挖掘、多目标决策等领域具有广泛的应用。然而随着数据规模的急速增长,单节点架构已经不能满足计算的要求,MapReduce框架作为一种并行编程框架,利用普通配置计算机组成的集群并行处理大规模计算任务,封装了集群中计算机之间的调度、错误处理、通信等复杂细节处理,擅长处理大规模数据的运算,且具有良好的可扩展性。目前基于MapReduce的计算研究已经取得了初步的进展,但已有的算法还远不能满足Skyline计算的要求,本文研究如何更加高效的在MapReduce框架下进行Skyline计算,主要工作及创新点如下:一、分析了现有基于MapReduce框架下的基本Skyline算法,发现这些算法都没有进行有效的预处理,而是简单的对数据集进行区域划分,基于此,本文提出一种高效的预处理 Skyline 查询算法 MRFS(MapReduce based Filter Skyline),对大数据集进行预处理,提取支配能力较强的点组成比较点集,在算法开始前先用比较点集对原始数据集进行过滤,预先排除掉大部分非Skyline对象,再对过滤后的数据集在Map阶段并行计算出局部Skyline集,最后合并到一个Reduce任务,得到最终的Skyline结果集。实验结果表明:该算法比现有的算法在时间效率上提高了 20~30%。二、目前对于高维数据空间的k-支配Skyline查询,尚没有将相关算法引入到MapReduce框架下实现。因此,本文将k-支配Skyline查询纳入到MapReduce框架中,根据不同场景,实现了三种算法,分别为基于MapReduce的两轮扫描算法(MR-TSA)、基于MapReduce的索引算法(MR-IBA)以及一种基于简单排序的k-支配Skyline改进算法(MR-SIA)。实验分析表明:上述三种算法具有高效性和可用性。
其他文献
研究背景:表观遗传学(epigenetics)是指在不涉及基因或者是蛋白质表达的DNA序列改变的情况下,基因或者是蛋白质的功能产生变化,并且产生可以遗传的表型,是遗传学的又一分支学
本文在系统搜集及消化矿床勘查成果资料和相关文献,全面了解西藏蒙亚啊铅锌矿床地质特征基础上。根据成矿预测必须确定成矿要素和方法要素,构建预测模型的基本思路;通过深入
空气污染物是一种以气态形式进入近地面或低层大气的外来物质。空气污染不仅给生物的生存和发展带来危害,还会造成物体的腐蚀。甲烷作为主要污染气体之一,对甲烷浓度的实时在
目的探索肾癌A498细胞系在氧化应激状态下自噬发生的机制及其对细胞凋亡的影响,为探索治疗的新方法提供实验依据和理论基础。方法1.应用不同浓度H2O2以及不同作用时间分别干
约4.5至4.7亿年前水生植物登陆,陆地先锋植物苔藓逐渐遍布全球,是南极等自然环境极端恶劣地区的主要植被。藻苔(Takakia lepidozioides)是迄今发现的最原始其系统发育位置曾
第一部分 MS-275联合顺铂对ErbB3过表达膀胱尿路上皮癌细胞的杀伤作用及机制研究目的ErbB3是表皮生长因子受体(ErbB/HER)家族的一员,其在肿瘤的发生发展过程中起着重要的作用
目前,我国社会的主要矛盾已转变为人民日益增长的美好生活需要和不平衡不充分的发展之间的矛盾;其中,区域发展不平衡已成为制约我国国民经济健康持续发展的重要掣肘因素。内
行人再识别技术是智能视频监控中的一项关键技术,该技术研究跨摄像头的行人识别与跟踪问题,根据查询行人图像,检索该目标行人是否出现在其他场景中。行人再识别可以应用于刑
左手超材料应用于轻量化车身的智能感知电磁器件时,其本身由于承载要求和温度变化等因素会引发变形,这些变形不仅会影响超材料的微结构尺寸,还将导致超材料的组分材料属性发
作为一个能源大国,中国已经勘测到的煤的地质储量约为8000亿吨。根据国家相关能源消耗数据的显示,在未来很长一段时间内,煤炭仍然占据着我国能源消耗的第一位,其中尤其是焦炭