分布式列式内存数据库事务系统的设计与实现

来源 :电子科技大学 | 被引量 : 0次 | 上传用户:liuyunxiaoyan
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
经历多年发展,分布式数据库领域逐渐细分,可以按处理方式不同将其划分为面向事务处理的数据库(OLTP型),面向数据分析的数据库(OLAP型)以及较新颖的混合两种功能的数据库(HTAP型)。其中AP和TP类型的系统发展已经相对成熟,而当前市面上虽然已经存在不少的HTAP实现方案,但大部分是基于行列混合存储的方式实现,事务的实现仍依赖于行式引擎,列式引擎数据需要从行式存储中同步得到,而直接面向列式存储的事务实现方案仍相对稀有。本文基于实验室自研的OLAP全内存列式分布式数据库设计了一套分布式事务方案。目的在于对列式只读引擎提供事务读写支持,打造一个基于全列式存储的分布式事务系统,主要工作内容如下:1.设计了一种MVCC方案,该模型读写互不冲突,写写互斥,支持垃圾回收。在此基础上利用跳表实现了支持无锁插入的高效增量索引,该增量索引同时具备键值语义的倒排索引与正排索引,支持基于版本号的查找功能。2.改造原有列式GroupKey索引使其支持多版本存储,尝试设计方案,利用GPU加速多版本GroupKey的构建与读取。3.基于增量索引与多版本GroupKey索引实现读写混合引擎,该引擎支持本地KV语义的事务功能。设计数据融合方案,将增量索引数据更新到GroupKey索引中,采用双索引方式,增量数据融合对外部系统事务执行不造成阻塞。另外实现了事务粒度的,以单个分片为作用范围的版本管理功能,用于配合混合引擎的旧版本垃圾回收。对于原始的AP计算引擎,则提供了接口支持。4.在混合存储引擎的基础上,实现分布式事务引擎,包括事务ID生成,事务状态管理,日志管理,元数据管理,基于Percolator修改的分布式两阶段提交功能实现。该分布式事务引擎采用多协调者的方式避免单点故障,并基于版本号管理的并发控制协议实现了可重复读的语义。此外支持悲观、乐观、本地三种事务功能接口。本文最终实现了混合存储引擎以及基于事务存储功能的分布式事务系统,随后进行了功能验证和相关性能测试,同时论证了存储系统一些设计的正确性。
其他文献
随着社会进入信息时代,网络上巨大的信息量使得如今用户想要快速检索有效信息变得十分困难。自动文本摘要技术的出现解决了上述问题,但是传统的自动文本摘要技术受限于各种条件,导致难以生成准确率高、语句通顺并且简洁的好摘要。本文以上述问题为着手点,主要研究如何提升中文自动文本摘要的质量,具体研究内容如下:1.提出了基于语义理解的生成式文本摘要模型。传统中文文本摘要模型难以利用原始文本实体间的关联,导致生成的
科技的高速变革不仅使大众的生活更加便利,而且也使人们的业余生活更加丰富多彩。现在人们获取影视节目的主要方式已经从电机频道转变成了互联网平台,人们的选择越来越多,用来观看节目的时间也更加灵活化,大家正在享受信息发展带来的便利。信息技术的发展也带来了信息过载的问题,人们面对互联网上海量的影视节目,往往无法很快选择出自己喜欢的内容。个性化推荐系统就是在这种背景下出现的,它的出现在一定程度上解决信息过载问
随着嵌入式领域的不断发展以及处理器体系架构的持续优化,多核处理器因其高性能、低功耗和低成本等优势得到了广泛的应用。同时,在万物互联的时代,嵌入式设备面临着越来越多的风险和挑战,这不仅需要增强设备的可靠度和安全性,还需要具备高扩展能力。而微内核架构因其本身的架构特点,具备代码量小、可扩展性高、安全可靠等优势,十分适合应用在嵌入式设备中。因此,本文基于团队自研的mginkgo微内核,设计并实现一个面向
近年来,随着深度神经网络的快速发展,基于循环神经网络的模型在机器翻译领域取得了非常显著的成果。因为对话的生成也可以看成是从输入到回复的一种翻译,所以将其应用到对话系统上也是一种非常有前景的方式。并且随着互联网的发展,网络上开始涌现出大量开源的对话数据集,这也使得以数据驱动和端到端的方式训练生成式对话系统成为可能。本文主要研究的是开放域生成式对话系统。不同于特定域的对话系统,其主要目的是和用户闲聊,
随着大数据时代的到来,数据成为企业的核心资产,分析和挖掘数据的潜在价值对企业业务发展和关键决策具有重要作用。数据集成是数据挖掘分析的基础,数据集成中,多源异构数据可能存在数据缺失、不一致等数据质量问题,而数据清洗是保证数据质量的重要手段之一。数据清洗技术需要依赖大量外部知识来指导清洗过程,但由于外部知识规模较小、构建低效等特点,限制了数据清洗效率。而知识图谱具有知识规模大、语义丰富等特点,因此,研
近年来,以卷积神经网络为代表的深度学习方法在医学图像的分类、分割等任务上取得了超越传统方法的成绩,得到了越来越广泛的研究和应用。但是,一方面,由于医学图像的特殊性,适用于自然图像的深度学习模型在用于医学图像上时,模型精度会有所下降;另一方面,现存的深度学习模型普遍计算量大、参数过多,应用于硬件资源受限的设备时存在一定难度,大模型也在训练集数据少的情况下出现过拟合的问题。为了改善和解决上述问题,本论
目的 探讨多普勒超声评价颈动脉粥样硬化斑块性质及狭窄程度的效果,分析其与脑梗死的关系。方法 回顾性分析本院2020年2月至2021年1月76例确诊脑梗死的患者作为观察组,纳入同期住院或门诊非脑梗死患者60例为对照组;2组均接受多普勒超声评价检测颈动脉粥样硬化斑块,对比评价该检查项目对缺血性脑血管病的检出价值。结果 经多普勒超声检查出对照组有39个斑块,观察组135个斑块,观察组不稳定斑块数目明显高
随着计算机科学与技术的快速发展,人们生活质量得到改善的同时,每天产生的数据也在以指数级的速率增长。在这个数据爆炸的时代,由于人工智能、数据挖掘等技术的出现以及快速的发展,数据的潜在价值逐渐被人们重视起来。我们可以从今年3月份发表的《关于构建更加完善的要素市场化配置体制的意见》中看到,国家已将数据视作了生产要素,与其它要素一起融入了经济价值创造的过程之中,可见数据在国家层面得到了最高的认可。然而数据
随着计算机技术的发展,自动化、智能化业务系统的需求日益增长。机打票据在企事业中被普遍应用,业务流程中信息的自动识别对成本节约具有重要意义。然而,现有的方法大多要求专业的图像采集设备,识别效率也有很大的提升空间。因此,研究简单且成本低廉的机打票据识别系统具有重要的现实意义。传统的光学字符识别(Optical Character Recognition,OCR)开源软件仅仅可以对文章等简单文本内容进行
随着卫星技术、高速光纤传输技术的逐渐成熟,天地一体化融合网络理念逐渐被大众接受并推广。SDN作为一种较为新型且技术生态相对完整的网络架构,通过解耦控制层与转发层,以软件形式实现了对全网资源的掌控与调度。通过SDN技术将天网与地网协同一体,可以极大程度发掘出天网的潜力。星地协同中传输链路的传输质量会受到基站所处的地理位置、地形、天气等外在因素的影响,因此为了最大限度保障服务质量,本文通过SDN控制器