基于持久化内存文件系统的连接算法分析与并行化研究

来源 :重庆大学 | 被引量 : 0次 | 上传用户:wjw909
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
连接操作是关系数据库系统中最基本、最昂贵的操作,对数据库的性能有着重要的影响。为满足高性能和低功耗的要求,工业界和学术界越来越多地利用新型非易失性内存读写速度快、可按字节寻址、低功耗、存储密度大等特点来存放需要持久化的数据。为此,现已有多个针对非易失性内存的内存文件系统,其文件读写方式和性能都不同于传统基于块设备的文件系统。而数据库里的连接表作为文件存放在文件系统中,内存文件系统对连接操作的性能影响需要研究。然而,目前尚无针对连接操作在内存文件系统的性能分析及其并行化的研究。本文以新型内存文件系统SIMFS(Sustainable In-Memory File System)为代表,研究内存文件系统的数据读写与传统块设备文件系统如EXT4(Fourth Extended File System)的I/O路径等方面的差异。然后分别实现最常用的Nest Loop Join、Sort Merge Join和Hash Join三种连接操作,在SIMFS和EXT4下设置不同的数据读写块大小和I/O大小对三种连接操作进行测试。本文分别从内存文件系统对连接操作的性能优化、块大小对连接操作的影响、三种连接操作之间的比较以及连接操作中数据的读写等方面进行分析。实验结果表明三种连接操作在SIMFS较EXT4中均有不同程度的性能提升。在不同文件系统下连接操作受到块大小的影响不同,传统文件系统下,连接操作受到块大小改变的影响更大。Hash Join和Sort Merge Join分别通过哈希和排序的方式减少数据的读取和比对,性能相对Nest Loop Join有明显的提升,Hash Join的性能又优于Sort Merge Join,三种连接操作在不同文件系统下的性能差距略有不同。不同文件系统下,连接操作的数据读写在总连接过程中所占比例不同,内存文件系统下的数据的读写在连接操作中的所占的比例较小。根据对实验结果的分析,本文分别提出相关的优化建议。不同于基于块设备的文件系统,内存文件系统下连接操作的优化已经不仅要考虑数据的读写,还必须优化算法的CPU计算时间。为此,本文重新设计Hash Join算法,使用OpenMP的方式并行执行Hash Join中待连接表的数据读写和哈希操作。结果显示,数据读写和哈希的并行性能提升可达40%左右。最坏情况下,并行数据读写和哈希的性能提升仍在11%以上,获得较好的预期效果。
其他文献
随着计算机网络通信、云计算、分布式处理以及多媒体等技术的飞速发展,越来越多的用户依赖网络传输和处理信息,而数字图像信息以其生动直观的特点被广泛使用,但是图像内容信
中医药语言系统(Traditional Chinese Medical Language System TCMLS)是世界上规模最大,数据最全的领域本体之一,在中医药科研和应用的多个领域发挥着重要的推动作用。但是,
用户对Deep Web站点的访问主要是通过其在Web页面中提供的具有特定查询能力的接口来获取所需要的结果。为了帮助用户简单高效的查找Deep Web信息,就必须提供统一的查询接口,
运动目标的检测与跟踪是机器视觉领域的核心课题之一,目前被广泛应用在视频编码、智能交通、监控、图像检测等众多领域中。本文对基于时域空域信息相结合的运动目标检测方法
随着微电子技术、计算机技术和无线通信技术的飞速发展和日益成熟,无线传感器网络(WSNs)的应用越来越广泛,逐渐被应用于军事、环境监测、交通控制等多个领域。但是数据传输延
在计算机图形学领域,大规模自然景观的建模和渲染是一个重要的研究课题。大规模草丛场景作为自然场景的重要组成部分,其建模和实时渲染技术也一直是众多学者的研究热点。但是
随着计算机技术与信息化技术的发展,信息化与现代化在社会各行各业都得到了极大的普及与覆盖,而这些信息化的普及给各行各业带了一个最大的问题就是数据呈指数级增长。为了充分
网络化已经成为嵌入式系统发展的一大趋势,而监控技术经过两代的发展,已经进化到了网络视频监控阶段,本文结合无线网络技术和嵌入式系统的优势和特点,提出了一种无线视频监控
随着计算机网络技术的不断发展,分布式应用规模的不断扩展,对分布式应用系统的可靠性、可扩展性和可维护性提出了越来越高的要求。数据访问问题是影响分布式系统性能的一个关
学位
传统的文本分类方法在类别数目较少时取得了很好的分类效果。然而,随着类别数目越来越大,如LookSmart、ODP等都有成千上万的类别,如果还利用扁平化方式组织这些类别,那么为一