MapReduce环境下基于支配层次树的k-支配skyline查询方法研究

来源 :辽宁大学 | 被引量 : 0次 | 上传用户:nbbob
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
深受信息时代发展影响的今天,对海量数据的处理已经深入到商业、科技、金融、教育等各行业的发展中。消息预测、电子商务、金融统计等新型信息产业在拥有大量用户数据信息的同时,也同样面临着海量信息的冗杂。从大量混杂的数据当中提取有效的关键信息,变得十分的必要。Skyline查询能够返回用户更感兴趣的信息,是大数据领域信息处理的一种关键技术,被广泛地应用到如好友关系的预测(社交网络大数据),高速公路车辆查询(交通大数据),商品推荐(电商大数据)等诸多领域。随着数据量的剧增,由于skyline查询对信息的选择没有控制性,受数据量和数据分布情况的影响,返回的结果量有可能随之增加。K-支配skyline查询的提出弥补了上述缺陷,它通过控制参数k来控制对属性的选择,从而达到控制结果集大小的目的。然而,由于参数k的可变性,传统的k-支配skyline查询算法一般只能够按照用户在某一方面的要求来进行选择,依赖用户程度较大且可变性不大。同时,在诸多实际应用中经常会出现缺失属性值的现象,当存在获取的信息的属性值缺失时,对不完整信息需要经过特殊的处理方式,才能够使得不完整的信息实现推荐。另外,面对巨增的数据量,与传统的集中式运行环境相比,分布式并行计算框架MapReduce的提出很好地解决了这一问题。通过不断地研究,改进的k-支配skyline查询算法能够适应并行的计算框架,使得处理效率有了明显的提升。针对上述问题,本文研究在MapReduce环境下基于支配层次树的k-支配skyline查询方法,以及在MapReduce环境下不完整数据上的k-支配skyline查询方法。本文的主要内容总结如下:(1)本文提出一种支配层次树DBH-Tree(Dominant based Hierarchical Tree)索引结构,以数据对象占优势的维度的数量为根,构建树形索引结构,将数据划分到不同的叶子节点子空间,在子节点上进行查询,提高查询效率。(2)本文提出MapReduce环境下的k-支配skyline查询算法MR-DBHA(MapReduce-Dominant based Hierarchical Algorithm)。根据所有可能存在的k值,Map函数将数据划分到子空间,在子空间上Reduce函数再进行支配关系的进一步计算,返回k-支配skyline查询结果。(3)本文提出不完整数据上的支配层次树索引结构ID-DBH-Tree(Incomplete data Dominantbased Hierarchical Tree)。应用“桶”策略,将不完整的数据对象按照缺失属性的维度划分到不同的“桶”中,在“桶”内部进行支配关系的计算,得到k-支配skyline结果。(4)本文提出MapReduce环境下不完整数据上的k-支配skyline查询算法MR-ID-DBHA(MapReduce-Incomplete data-Dominant based Hierarchical Algorithm)。首先对不完整数据进行预处理;其次,再通过Map函数将“桶”中的数据按照支配情况分配到子空间上,Reduce函数对数据按照键值key进行支配过程,返回k—支配skyline查询结果。
其他文献
目的:细胞凋亡的异常与癌症的发生发展密切相关,对其机制的探究对于癌症的治疗具有深远意义。肿瘤坏死因子(Tumor Necrosis Factor,TNF)相关凋亡诱导配体(TNF-related apopto
随着人们生活水平的提高,我国居民越来越重视个人的生活质量,也因为改革开放的伟大成就,我国人民的消费能力也不断增强,尤其是女性消费者对于化妆品的需求也越来越大。随着消
绿色移动通信技术是未来蜂窝移动通信系统可持续发展的关键,毫微微基站由于具有发送功率小、频谱效率高,且支持高速率的移动用户接入并提供更高的服务质量等优点,已成为移动
目的腹壁切口疝是腹部手术后常见的并发症之一,手术修补是唯一有效的治疗方式。目前腹膜前间隙补片置入术(Sublay)是开放切口疝修补术中最有效的手术方法。随着技术的发展,腹
近年来随着智能手机和移动互联网应用的快速发展,基于位置的服务(Location-Based Service,LBS)吸引了越来越多的关注。实时定位技术已经成为交通、商业、物流、个性服务等多
全球卫星导航系统(GNSS,Global Navigation Satellite System)的应用逐渐成熟普及,然而GNSS信号本身的脆弱性容易导致其受到干扰造成定位精度下降甚至不可以用,因此具有干扰
结直肠癌是发生在结肠或者直肠内壁的恶性肿瘤,在癌症中全世界致死数排名第二。因此,找出敏感性、特异性较好的生物标志物对于提高结直肠癌的诊断精度、监测结直肠癌患者预后
对高速率数据传输的急剧需求一直是多天线宽带无线通信的主要推动力。然而,许多无线信道呈现出频率选择性,这导致性能显著下降。正交频分复用(Orthogonal Frequency Division
随着信息技术的高速发展与广泛应用,互联网与计算机已完全融入人们的生活。但是相应的,网络入侵的风险也急剧增加。IDS作为重要的信息安全辅助系统,能够应对网络蠕虫及部分恶
不管是科学研究还是工业领域,都已经与各式各样的数据密不可分。随着精度要求的提高,高维数据变得愈加普遍。然而,高维数据不仅带来存储成本和计算开销的大幅增加,其中存在的大量冗余会给机器学习模型带来干扰,并最终导致获取知识的不准确。内在的认知模型往往仅存在于少数属性之中,意味着高维数据存在大量冗余,而用来决策的属性只占少数。因此,在进行数据挖掘或者知识发现之前,需要对高维数据进行预处理,即通过降低数据维