论文部分内容阅读
当前电子商务的发展态势如火如荼,交易规模越来越大,导致了海量的电子商务数据,使得电子商务数据库的读写、更新和查询等性能提升变得越来越困难。当前主要的解决方案都已接近了数据库系统性能优化的极限。而Flash存储技术的发展为解决上述问题带来了新机遇,其超过磁盘100倍的I/O性能可以作为突破数据库性能优化瓶颈的方法。因此本文将从底层存储技术研究入手,兼顾上层软件算法来实现提升电子商务数据库在海量数据环境下的运行性能。研究发现,Flash芯片的顺序读写和随机读取速度都远快于磁盘,但是随机写入和更新性能不足,且芯片价格较高。因此本文提出采用Flash和磁盘混合存储系统,既可以综合利用两者各自的优势,又可以兼顾设备价格成本。但是基于混合存储系统的数据库部署方案目前尚无系统的研究。本文探索了基于混合存储系统的电子商务数据库性能优化,研究成果丰富了现有电子商务数据库的研究内容,对电子商务企业的发展具有重要的现实指导意义。本论文的研究内容主要有:(1)基于混合存储系统的差异存储模型的构建。从适合电子商务企业应用的角度出发,在数据库表和属性两个层面上构建了差异存储模型,并设计了判断表和属性数据读写敏感性和冷热性的阈值算法,实现了表及属性数据的读写敏感性和冷热性分析以及迁移存储方案。(2)基于混合存储系统的差异存储模型的查询性能优化研究。消费者使用电子商务平台时需要进行大量的数据库查询操作,因而确保并提高电子商务数据库的查询性能对于保证电子商务企业运营质量至关重要。本文首先设计研究了HS-Join算法用于提高存储于不同存储介质的、以表为单位的多表连接查询性能;其次设计研究了PHS-Join算法,在Flash设备上提取主键列和连接列建立连接子表并基于子表重构整体连接表。实验表明了两种算法能够明显提高电子商务数据库的查询性能。(3)基于混合存储系统的差异存储模型的事务处理性能优化研究。电子商务数据库的事务处理性能是电子商务企业提高响应能力,维护更多消费者人数,并在同一时间内满足每位消费者个性化需求的重要技术基础。本文以Oracle数据库为例,首先分析了事务处理过程中大量的临时数据和日志数据的读写敏感性及冷热性,确定了将这两类文件迁移存储到Flash设备中。其次根据日志文件增长迅速的特点,提出了Dynamic Logging方法,当Flash空间不足时,日志记录可以实现分散存储。实验表明上述管理方法明显提高了电子商务数据库的事务并发性能。(4)基于混合存储系统的差异存储模型的数据仓库性能优化研究。优化电子商务数据仓库的查询分析性能是电子商务企业更快速、更准确地作出商业决策的技术基础。本文首先提出了采用列存储方案,并提出了列迁移存储算法,提高了决策所需属性数据的查询效率。此外针对数据仓库中多属性关联分析时连接代价大的问题,提出了行列混合存储方法,通过提前固化减少了连接代价。最后提出了数据差异化压缩存储方案,既保障了数据的查询效率,又充分利用了磁盘的存储空间。本论文的创新点和主要贡献有:(1)本文从电子商务企业角度考虑其经济可行和技术可行两个方面,提出了在电子商务数据库中采用混合存储系统,并从表和属性两个层面构建了差异存储模型。既有利于电子商务企业应用实现,又能满足用户对响应速度可感知的要求。(2)本文提出了适合混合存储系统查询的HS-Join算法和PHS-Join算法,充分利用了Flash的随机读取优势,提高了电子商务数据库的查询性能;提出了数据库相关文件在混合存储系统中的部署方案,极大提高了数据库的事务处理性能,提升了电子商务企业的业务处理能力。(3)本文为了实现电子商务数据仓库性能优化采用了行列混合存储技术,提出将高频率的连接列提前固化,提高了分析决策的速度和效率。此外在混合存储系统中采用数据差异化压缩存储方案,充分发挥了设备的存储效率,又确保了数据仓库的查询速度。