论文部分内容阅读
流数据查询是流数据处理中一个非常重要的研究领域,由于流数据到来的快速性和大量性等特点,必须及时地对流数据进行处理,流数据的输入速率突然剧增会使查询系统发生过载,将严重影响查询系统的响应速度和查询质量,查询系统有效的过载控制已成为一个研究的热点;同时查询处理产生的结果数据流往往有很重要的参考价值,这样就产生了流数据查询中对已产生的结果流再利用的问题。如何充分利用已得到查询结果流也成为当前研究的一个重要课题。目前查询系统的过载控制仍未达到理想效果,对查询结果流的利用也很少。因此本文构建了基于反馈机制的流数据查询模型,并对该模型中的过载控制、查询处理和反馈生成等问题进行了深入的研究,主要工作和创新成果体现在以下几个方面。首先,构造了基于反馈机制的流数据查询模型,通过对连续查询的结果流进行反馈树分类从而发现输出结果流的主要特征,并以此来对输入数据流进行评估,指导流数据处理系统中过载控制的丢弃元组操作,最大可能的提高输出结果的准确度,在查询时以反馈参数为指导还可以加快查询速度。其次,在对Aurora系统过载卸载的分析基础上,提出了改进的完备负载卸载路径映射的重构方法和自适应的负载卸载路径映射的重构方法,从理论上的有效性进行了分析,并对其算法进行了设计。再次,设计了基于时间粒度的多层次滑动窗口的划分和动态维护方案和部分算法,使的流数据查询可以在多个不同的层次进行,能进一步提高查询的准确度。最后,采用了反馈树的方法生成反馈度参数,并对带有反馈度参数的反馈树的生长和剪枝算法进行了设计。