论文部分内容阅读
随着互联网技术的应用与发展,数据获取方式的多样化使互联网中的数据呈爆发式增长,如何处理海量数据并为用户推荐其感兴趣的信息成为了数据库研究领域的重要课题之一。轮廓查询作为解决多目标决策问题的重要手段,在金融市场、环境监测等领域具有重要的应用价值。目前,集中式环境下的轮廓查询已经取得了大量的成果。关于轮廓查询的扩展问题相继被提出,其中动态轮廓查询是轮廓查询的重要变种之一。但是,随着数据量的增长,传统的轮廓查询算法已经无法满足对大规模数据的查询需求。因此,本文对分布式环境下的轮廓查询及动态轮廓查询问题进行了深入研究,提出了两种高效的算法来解决相关问题。本文的贡献点总结如下:(1)针对分布式环境下的轮廓查询问题,提出了分布式环境下轮廓查询算法DSQ(Distributed Skyline Query)。首先,设计了基于Z曲线的分层次网格索引结构来对数据进行管理;然后,提出了算法DSQ来完成分布式环境下的轮廓查询。DSQ包括两个阶段:第一阶段,首先,基于分层次网格索引提出了数据块过滤算法,完成了对各节点中数据的批量过滤;然后,提出了一种支配关系图索引来完成对本地数据元组的过滤。第二阶段,采用一种分布式调度策略将候选集合并计算的任务均衡地分配到各节点,有效避免了瓶颈节点的产生。最后,完成了一系列对比实验,验证了 DSQ算法的正确性和有效性。(2)针对分布式环境下的动态轮廓查询问题,提出了分布式动态轮廓查询算法DDSQ(Distributed Dynamic Skyline Query)。DDSQ 算法共分为两个阶段:第一阶段,首先,基于B树索引提出了本地基础扫描算法BSAB(Basic Scan Algorithm based on B-tree),通过减少扫描空间快速完成分布式动态轮廓候选集的计算;然后,基于分布直方图索引提出了优化扫描算法 OSAB(Optimized Scan Algorithm based on B-tree)。与BSAB 相比,OSAB算法进一步减少了扫描空间,提高了计算效率。第二阶段,采用分布式调度策略完成分布式动态轮廓候选集的合并计算。最后,完成了—系列对比试验,验证了 DDSQ算法的有效性。