论文部分内容阅读
近年来,随着信息技术的不断发展,不确定数据流广泛存在于诸如传感器网络、基于位置的服务和RFID网络等现实应用中。对不确定数据流进行高效查询处理已成为当前大数据处理的一个重要方面。不确定数据流的Skyline查询在数据挖掘、决策制定和环境监控等众多应用中发挥着重要作用,已成为数据库领域的一个研究热点。然而,已有的研究主要采用集中的Skyline查询处理方式,当用户对查询响应速度要求较高或滑动的窗口规模较大时,基于单机环境进行集中处理的查询效率受到计算能力的限制,难以满足查询的实时性需求。当前诸如数据中心等分布式计算环境的兴起和广泛运用,为实现不确定数据流的分布并行Skyline查询处理提供了有利条件。对于高速到达的不确定数据流上的Skyline查询,当前研究的挑战在于如何充分利用分布式计算环境实现并行查询处理,以提高查询处理的效率。本文围绕上述研究挑战,针对不确定数据流开展了分布并行Skyline查询技术的研究工作。首先,针对已有基于单机环境的集中式查询处理方法因计算能力不足而难以满足当前用户查询需求的问题,提出了一种针对不确定数据流的分布并行Skyline查询处理的两级并行查询模型TPM。相比已有的集中式并行查询模型CPM,在TPM模型中,并行节点只需要维护局部滑动窗口,相同阶段的各并行节点间不需要通信同步中间结果。实验结果表明,基于TPM模型对不确定数据流进行分布并行Skyline查询处理的方式在不同滑动窗口规模、数据维度和并行节点数目的条件下,查询响应时间均优于基于CPM模型的查询处理方法,能够满足不确定数据流并行Skyline查询的需求。其次,针对已有的不确定数据流Skyline查询方法难以满足高吞吐率数据流环境如军事作战指挥、自然灾害监控等对查询响应速度的极高要求,提出了一种基于网格概率记录的Skyline查询处理方法,减少支配关系测试阶段内各并行节点中支配关系测试次数和局部Skyline概率计算过程中的重复计算。实验结果表明,基于网格概率记录的Skyline查询处理方法能够有效提高不确定数据流的分布并行Skyline查询的处理效率,满足高速的查询处理需求。最后,针对现实应用中用户需求和Skyline查询处理结果契合度不足的问题,对不确定数据流的Skyline扩展查询进行研究,设计了不确定数据流的Skyline枚举查询(Enumerating Query),研究提出了一种基于支配关系图的Skyline枚举查询处理方法。支配关系图能够记录并行节点内数据间完全的支配关系,并实现对待考察元组在支配关系图中的快速定位,从而快速找到待考察元组支配的元组集合。实验结果表明,基于支配关系图的Skyline枚举查询的并行处理方法在高维数据流中性能较好,能够满足用户的查询需求。