流式大数据近似计算方法的研究与实现

来源 :中国科学院大学 | 被引量 : 0次 | 上传用户:tzwizj
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近些年,针对流式大数据实时处理,并提供低延时高效率的实时交互式查询的研究已经成为大数据领域的热门研究方向。然而由于流式大数据的计算环境中,存储和计算资源有限,往往无法为真实的流式大数据提供实时、准确的数据分析结果。同时,主流的大数据统计方法、分析模型是基于特征值相似性原理构建的,容忍一定程度的计算误差。  因此本文综合考虑流式大数据处理中常面临的数据乱序、分布未知、内存空间受限等问题,具体分析了当前流式大数据近似计算存在的不足,提出了一种支持流式大数据近似计算的复合数据概要结构,支持聚合类计算(如SUM、COUNT、AVG等),分位数类(如MEDIAN、QUANTILE、TOP-K等),以及GROUPBY等复杂算子的近似计算。进一步,本文设计了一种基于方差优化直方图的整数线性规划方法,可以在限定内存空间内选择最优样本集,有效提升GROUPBY,JOIN等复杂算子计算精度。本文将上述方法应用于Spark Streaming流式大数据计算平台中,结合Spark Streaming高吞吐、低延时、支持容错的特性,实现分布式环境下流式大数据高精度近似计算。最后,本文对所提出的方法进行了实验测试后补充实验结果描述:例如本文所提方法在百亿记录规模下获得毫秒级查询响应,估算误差小于1%,进一步证实了本文所设计的方法能够非常有效的支持流式大数据环境下的近似计算。通过实验测试,充分验证了本文所设计的方法能够有效的支持流式大数据实时处理与高精度近似计算的应用需求。
其他文献
近几年,社交网络已成为人们获取消息的重要途径。人们可以在社交网络上发布简短的消息,其粉丝们可以转发或者评论这些消息,促使消息广泛传播。正是因为其快捷性,受到了全世界人们
该文在详细介绍网格概念和网格体系结构的基础上,主要研究内容包括校园网络异构并行计算系统中的集合通信和任务调度策略的设计与实现,同时对网络异构并行计算系统的处理器选
本文主要讨论了基于Linux的嵌入式系统的研究与开发。文章首先对嵌入式系统进行了简单介绍,在详细分析了系统特点的基础上,结合Linux自身的优点,提出了基于Linux的嵌入式操作系
数字医疗成像设备已经成为现代医疗中不可缺少的诊断器械.如何保证这些数字医疗成像设备所采集的图象可以被有效的管理、保存、使用和清晰的再现,成为现代数字医疗界面临的关
随着移动互联网的发展,越来越多的人使用手机上网。手机APP成为网络服务的主要入口,APP的商业价值得到广告机构的重点关注。对广告主来说,APP下载次数是决定他们最后一次报价的
中文TTS(Text-to-Speech)系统就是把文本文字串或文件通过一定的软硬件转换成连续的语音流输出的系统.文本分析和语音合成是TTS系统两个基本步骤.前者从文本中提取各种韵律控
作者着重研究了时空数据库的几个关键技术问题.具体研究内容包括:时空数据模型、基于对象行为特征的时空拓扑模型、拓扑规则系统、时空方位处理、空间数据索引和分史存储以及
信息检索系统是互联网中最常见的应用之一,例如Web搜索引擎、在线文献检索系统等等。在这些系统中,倒排索引是最常见也最重要的数据结构。倒排索引文件通常比较大,需要耗费大量
学位
工作流系统已经成为人们的日常业务处理中越来越重要的技术,对一个组织来说业务过程的可靠性和一致性是很重要的。但是目前,大多工作流系统产品和原型系统都缺乏事务特性,这是工