不确定数据流的分布并行Skyline查询处理技术研究

来源 :国防科学技术大学 | 被引量 : 0次 | 上传用户:lyklcjs
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,随着信息技术的不断发展,不确定数据流广泛存在于诸如传感器网络、基于位置的服务和RFID网络等现实应用中。对不确定数据流进行高效查询处理已成为当前大数据处理的一个重要方面。不确定数据流的Skyline查询在数据挖掘、决策制定和环境监控等众多应用中发挥着重要作用,已成为数据库领域的一个研究热点。然而,已有的研究主要采用集中的Skyline查询处理方式,当用户对查询响应速度要求较高或滑动的窗口规模较大时,基于单机环境进行集中处理的查询效率受到计算能力的限制,难以满足查询的实时性需求。当前诸如数据中心等分布式计算环境的兴起和广泛运用,为实现不确定数据流的分布并行Skyline查询处理提供了有利条件。对于高速到达的不确定数据流上的Skyline查询,当前研究的挑战在于如何充分利用分布式计算环境实现并行查询处理,以提高查询处理的效率。本文围绕上述研究挑战,针对不确定数据流开展了分布并行Skyline查询技术的研究工作。首先,针对已有基于单机环境的集中式查询处理方法因计算能力不足而难以满足当前用户查询需求的问题,提出了一种针对不确定数据流的分布并行Skyline查询处理的两级并行查询模型TPM。相比已有的集中式并行查询模型CPM,在TPM模型中,并行节点只需要维护局部滑动窗口,相同阶段的各并行节点间不需要通信同步中间结果。实验结果表明,基于TPM模型对不确定数据流进行分布并行Skyline查询处理的方式在不同滑动窗口规模、数据维度和并行节点数目的条件下,查询响应时间均优于基于CPM模型的查询处理方法,能够满足不确定数据流并行Skyline查询的需求。其次,针对已有的不确定数据流Skyline查询方法难以满足高吞吐率数据流环境如军事作战指挥、自然灾害监控等对查询响应速度的极高要求,提出了一种基于网格概率记录的Skyline查询处理方法,减少支配关系测试阶段内各并行节点中支配关系测试次数和局部Skyline概率计算过程中的重复计算。实验结果表明,基于网格概率记录的Skyline查询处理方法能够有效提高不确定数据流的分布并行Skyline查询的处理效率,满足高速的查询处理需求。最后,针对现实应用中用户需求和Skyline查询处理结果契合度不足的问题,对不确定数据流的Skyline扩展查询进行研究,设计了不确定数据流的Skyline枚举查询(Enumerating Query),研究提出了一种基于支配关系图的Skyline枚举查询处理方法。支配关系图能够记录并行节点内数据间完全的支配关系,并实现对待考察元组在支配关系图中的快速定位,从而快速找到待考察元组支配的元组集合。实验结果表明,基于支配关系图的Skyline枚举查询的并行处理方法在高维数据流中性能较好,能够满足用户的查询需求。
其他文献
数字水印技术是近几年来国际学术界兴起的一个前沿研究领域,它与信息安全、信息隐藏、数据加密等均有密切的关系。特别是在网络技术和数字技术迅速发展的今天,数字媒体已成为人
学位
学位
面向服务的架构(Service-Oriented Architecture,SOA)作为实现软件松耦合的方案,引起了工业界和学者的广泛关注。特别是在XML技术和SOAP技术成熟后,出现了符合SOA架构的Web S
软件构件技术是支持软件复用的核心技术之一,近年来,依靠中间件平台提供的基础设施,通过标准化的运行级构件的规约,为使用标准软件构件构造系统提供了一种自底向上的有效途径,得到
随着企业业务的发展,企业积累了大量的客户的历史消费数据资料,如何从这些大量的数据中发现对公司有价值的信息,成为公司将来决策的一个重要的部分.数据挖掘技术已经逐渐应用
可达性是Petri网的最基本的动态性质之一。它是研究Petri网其它动态性质的基石,许多Petri网的其他问题都可以通过其可达性来表述。因此,可达性判定问题Petri网理论研究的一个重
备份索引记录了数据备份发生的"历史痕迹",是数据备份系统中必不可少的组成部分.作为数据备份的重要方式之一,增量备份在备份底层数据增量的判断处理上千差万别,如文件备份依
长期以来,落后的装配设计方法一直是生产自动化进程的主要瓶颈之一。作为虚拟制造重要组成部分的虚拟装配技术,是对传统装配方法的革新,它的产生和发展有望解决这一困扰制造业多
面向对象软件测试是面向对象软件开发中不可缺少的一环,是保证软件质量,提高软件可靠性的关键。类是面向对象方法中最重要的概念,是构成面向对象程序的基本成分,因此类成为面向对
网格计算是近年来国际上兴起的一种新技术。网格的根本目的是实现非平凡的资源共享和协同工作,消除信息孤岛和资源孤岛,使用户能够便利得使用网格资源。网格在众多领域都得到