大规模流式数据存储研究与应用

来源 :电子科技大学 | 被引量 : 0次 | 上传用户：lollipop7919

【摘要】

：

在信息化时代,生产生活业务场景愈发复杂,产生的数据体量也急剧膨胀。流式数据囊括范围甚广,而又贴近日常生活。从个体的社交活动与网购信息,到传统的交通、安防监控数据,到

【作者】

：

陈绍斌

【出处】

：

电子科技大学

【发表日期】

：

2018年01期

【关键词】

：

流式数据结构化数据非结构化数据分布式存储

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

在信息化时代,生产生活业务场景愈发复杂,产生的数据体量也急剧膨胀。流式数据囊括范围甚广,而又贴近日常生活。从个体的社交活动与网购信息,到传统的交通、安防监控数据,到金融市场的交易日志,再到工业界的传感器的遥测数据,这些都认为是流式数据。通过对流式数据的归档和分析可以总结客观规律和做出合理决策。相较于传统的数据类型,流式数据通常表现为一组随着时间序列增长的多维度的数据记录,在数据记录中,既存在着能够直观理解的结构化形式的度量指标,也可能存在着音频、图像之类的非结构化数据。这导致了传统的面向有界、格式固定的数据的文件系统或数据库,难以满足流式数据的存储需求。因此,如何构建一套面向大规模流式数据存储的系统是值得研究的课题。本文以自行设计和研发的大规模流式数据存储系统为背景,详细阐述其设计思路,涉及的理论技术及其实现方法。本文主要完成了如下的工作:(1)提出了对数据流中结构化和非结构化数据分治处理,统一检索的思路。(2)基于KV存储引擎RocksDB构建了结构化数据存储模块,并围绕该模块提出了结构化数据到键值对的行列混合映射方式,并采用基于上下文相关性的数据压缩编解码算法,有效减少键值对大小。(3)基于磁盘连续写入模型,设计并实现了扁平化的非结构化数据存储模块,根据流式数据特性,按区块存储索引,减少索引数目。(4)针对流式数据存储特性,提出了存储节点的自适应负载均衡调度算法。通过以上的工作以及优化,确保了存储系统能应对格式灵活,规模庞大的流式数据存储,同时也保证了系统的可扩展性。

其他文献

关于蓝田县白皮松产业发展的思考

蓝田县白皮松产业近年来发展的势头迅猛,苗木面积飞速扩张,发展过程中产生了一些问题,文章从白皮松产业发展中存在的几个问题进行了探讨,以期对苗农有所帮助。

期刊

蓝田白皮松产业发展思考

根面龋调查与分析

期刊

根面龋

宫腔内疾病的超声诊断及鉴别诊断

宫腔内各种疾病常以月经过多或阴道不规则性出血就诊,B超能清晰显示宫腔内疾病,对其诊断起着重要作用.本文利用B超对54例宫腔内疾病患者进行了观察,并与手术病理及临床其他检

期刊

宫腔内疾病鉴别诊断超声诊断不规则性月经过多检查结果B超