论文部分内容阅读
近些年,针对流式大数据实时处理,并提供低延时高效率的实时交互式查询的研究已经成为大数据领域的热门研究方向。然而由于流式大数据的计算环境中,存储和计算资源有限,往往无法为真实的流式大数据提供实时、准确的数据分析结果。同时,主流的大数据统计方法、分析模型是基于特征值相似性原理构建的,容忍一定程度的计算误差。 因此本文综合考虑流式大数据处理中常面临的数据乱序、分布未知、内存空间受限等问题,具体分析了当前流式大数据近似计算存在的不足,提出了一种支持流式大数据近似计算的复合数据概要结构,支持聚合类计算(如SUM、COUNT、AVG等),分位数类(如MEDIAN、QUANTILE、TOP-K等),以及GROUPBY等复杂算子的近似计算。进一步,本文设计了一种基于方差优化直方图的整数线性规划方法,可以在限定内存空间内选择最优样本集,有效提升GROUPBY,JOIN等复杂算子计算精度。本文将上述方法应用于Spark Streaming流式大数据计算平台中,结合Spark Streaming高吞吐、低延时、支持容错的特性,实现分布式环境下流式大数据高精度近似计算。最后,本文对所提出的方法进行了实验测试后补充实验结果描述:例如本文所提方法在百亿记录规模下获得毫秒级查询响应,估算误差小于1%,进一步证实了本文所设计的方法能够非常有效的支持流式大数据环境下的近似计算。通过实验测试,充分验证了本文所设计的方法能够有效的支持流式大数据实时处理与高精度近似计算的应用需求。