论文部分内容阅读
随着信息采集手段的快速发展,很多应用领域的数据呈现出“连续数据流”的形式而不是传统的静态存储结构形式。这些应用领域包括交通监控系统、传感器网络数据管理、金融证券信息分析等等。数据流具有大容量、不可预测和突发性到达等特点,给传统的数据管理手段提出了挑战性的问题。数据流处理固有的两个基本特点是近似性和适应性,在很多实际应用中,用户并不需要得到完全精确的结果,而仅需要一个近似值,因此,实时给出近似查询结果是数据流处理的主要目标,而数据流处理的适应性是影响近似性的关键因素。
本文在详细总结数据流管理体系中的一系列问题的基础之上,对其中的部分关键技术进行了研究和探讨,其中包括滑动窗口处理模型、数据流概要方法以及数据流聚集计算的数据结构等。论文的主要工作和创新体现在以下三点:
(1)深入研究了滑动窗口模型在数据流处理中的作用和特点,并根据数据流应用中的特征,将多层次划分思想和多粒度描述引入到滑动窗口模型中来,提出了一种多层次窗口模型的建模方法,并对其展开了探讨。
(2)在多层次滑动窗口模型的基础上,设计了aMG-Tree(Multi-Granularity andmulti-level aggregate Tree,多粒度多层次聚集树)结构和适合aMG-Tree的不同层次窗口过期数据的几何快照存储结构,使得不仅能支持数据流的简单聚集查询,而且还能支持涉及过期数据的数据流分组聚集和基于条件的复杂聚集查询。
(3)给出了上述两种结构的数据流在线聚集与近似查询算法,能有效地解决有限时空条件下的数据流聚集查询问题。