大规模流式数据存储研究与应用

来源 :电子科技大学 | 被引量 : 0次 | 上传用户:lollipop7919
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在信息化时代,生产生活业务场景愈发复杂,产生的数据体量也急剧膨胀。流式数据囊括范围甚广,而又贴近日常生活。从个体的社交活动与网购信息,到传统的交通、安防监控数据,到金融市场的交易日志,再到工业界的传感器的遥测数据,这些都认为是流式数据。通过对流式数据的归档和分析可以总结客观规律和做出合理决策。相较于传统的数据类型,流式数据通常表现为一组随着时间序列增长的多维度的数据记录,在数据记录中,既存在着能够直观理解的结构化形式的度量指标,也可能存在着音频、图像之类的非结构化数据。这导致了传统的面向有界、格式固定的数据的文件系统或数据库,难以满足流式数据的存储需求。因此,如何构建一套面向大规模流式数据存储的系统是值得研究的课题。本文以自行设计和研发的大规模流式数据存储系统为背景,详细阐述其设计思路,涉及的理论技术及其实现方法。本文主要完成了如下的工作:(1)提出了对数据流中结构化和非结构化数据分治处理,统一检索的思路。(2)基于KV存储引擎RocksDB构建了结构化数据存储模块,并围绕该模块提出了结构化数据到键值对的行列混合映射方式,并采用基于上下文相关性的数据压缩编解码算法,有效减少键值对大小。(3)基于磁盘连续写入模型,设计并实现了扁平化的非结构化数据存储模块,根据流式数据特性,按区块存储索引,减少索引数目。(4)针对流式数据存储特性,提出了存储节点的自适应负载均衡调度算法。通过以上的工作以及优化,确保了存储系统能应对格式灵活,规模庞大的流式数据存储,同时也保证了系统的可扩展性。
其他文献
蓝田县白皮松产业近年来发展的势头迅猛,苗木面积飞速扩张,发展过程中产生了一些问题,文章从白皮松产业发展中存在的几个问题进行了探讨,以期对苗农有所帮助。
期刊
宫腔内各种疾病常以月经过多或阴道不规则性出血就诊,B超能清晰显示宫腔内疾病,对其诊断起着重要作用.本文利用B超对54例宫腔内疾病患者进行了观察,并与手术病理及临床其他检
目的探讨无痛苦护理在消化道癌围术期的规范化应用。方法对消化道恶性肿瘤术后成功护理的68例病例进行分析总结。结果根治性手术43例,姑息性手术25例,切口I/甲愈合53例,Ⅱ/乙愈合1
作者通过对甘南州农牧村土地承包经营权流转的调查,总结了农牧村土地承包经营权流转现状及特点,分析存在的问题并提出解决对策。
低渗稠油是一种比较特殊的油藏类型,这种油藏的开发难度较大,相比于传统的直井,水平井更加适用于低渗稠油的开采。因此,文章以低渗稠油油藏的特点为研究基础,分析能够对其热
现阶段,我国很多单位在内控建设方面存在缺陷与不足,严重制约着单位的健康发展。基于此,文章对单位加强内控建设的意义进行分析,并针对内控建设中存在的不足提出解决对策,以
在生产经营活动中,如何做好安全管理,提高生产安全成效,降低相关事故,是实际管理活动中普遍性提升生产质量和效果,保障经济效益最为关键、最为核心的措施。为了有效进行管理,