论文部分内容阅读
随着科技的发展和互联网的流行,数据流以及相关的应用正受到人们广泛的关注。在数据流环境下,很多情况下需要对其进行不同类型的复杂查询,而这一类查询往往对系统的实时性和准确性有着很高的要求。
本文讨论了当前比较流行的复杂查询算法,其中包括有NN算法、R-Tree算法、ANN算法等,并对其进行深入地分析。由于上述算法对于当前数据有着很大程度的依赖性,数据结构比较复杂,当数据随时间发生变化时,需要对整个数据结构进行重新构建,往往达不到数据流上复杂查询所需要的实时性和准确性的要求,因此,这些方法不适用于完成在数据流上的复杂查询。
由此,本文提出了一种全新的min-max查询算法,提出了候选区域(Candidate Region)的概念。主要思想是通过对数据的分析计算,在整个数据区域内划分出一个子区域:候选区域,并利用候选区域对新到来数据进行过滤处理,最后生成当前查询结果。当候选区域所对应的查询结果过期后,通过与后台系统通信获得新的数据信息来更新当前查询结果。在数据流环境中,该方法对于数据点随时间发生变化以及查询点随时间发生变化的情况均适用。同时,在查询点随时间变化的情况下,本文对CR技术进行了改进,提出了一种增强了的CR算法,解决查询点动态变化的情况,并拥有更高的查询效率。在整个查询处理过程中,CR算法以及其增强算法计算准确、效率很高,实现了在数据流上min-max查询的实时性。
大量的实验和分析证明,本文提出的基于CR技术的min-max查询算法及其增强算法适用于数据流上查询点和数据点随时间发生变化的情况,具有较高的实时性和准确性。