面向时序数据库的时间序列数据有损压缩算法研究

来源 :重庆大学 | 被引量 : 0次 | 上传用户:huyuxuan0601
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着大数据时代的来临,无数的设备需要采集不同指标的数据,其记录的数据量非常之大。如果将采集到的数据直接存储到传统的关系型数据库中,不仅会消耗大量的存储空间,同时也会降低数据的传输、查询、分析、处理效率。现有的传统数据库系统对于时间序列数据的存储效率不高,因此需要针对时间序列数据的特性,设计专门的时序数据库。目前的时序数据库允许用户创建、更新和销毁各种数据并对其进行一定的图形化展示及分析,但并没有对海量历史数据进行过多操作就直接将其存储到磁盘中。这极大制约了时序数据库的发展,容易引起存储空间消耗过大、磁盘读写过多及系统性能降低等问题。因此,将高效的数据压缩技术引入到时序数据库中,对时序数据库的发展有着尤其重要的意义。基于以上问题,针对时间序列数据的特点,本文提出了一种新型高效的时间序列数据有损压缩算法。该算法可以保证在一定的精度前提下,通过去除数据中的冗余部分、缩短数据编码长度,节省了时间序列数据占用的存储空间,提高数据传输速度。具体工作如下:1)提出了基于差值法的时间戳压缩算法。本文基于差值法对传统的时间戳压缩算法进行了优化。该算法对每个时间戳的差值计算了二次差值,根据设定好的压缩规则对二次差值进行编码,以实现对时间戳的压缩。此外,针对时间序列数据采集过程中普遍存在的时间点遗漏问题,本文提出的压缩算法也可以减少时间戳的存储开销。2)提出了时间序列数据有损压缩算法。在数据存储过程中,浮点数采用的是IEEE规定的编码标准。这会出现两个浮点数值差异很小而编码转换得到的二进制却相差甚远的情况。针对这一问题,本文结合浮点数的组成特性提出了有损压缩算法。首先,对数据进行矢量量化预处理。然后,在可接受的精度损失范围内,将原始数据转成结构相近的二进制编码字节。最后,进行异或操作并对结果中的冗余部分进行编码压缩。该有损压缩算法可以实现时间序列中数据值的高效压缩。最后,通过模拟仿真实验对本文提出的算法进行了验证。实验结果表明,在选取适当的损失因子后,本文提出的有损压缩算法,能够在损失精度与压缩率之间取得较好的平衡,同时数据值的压缩率高达5.274倍,90%以上的时间戳可以用1bit进行存储,平均损失率趋近于0。
其他文献
介绍文丘里泥提碲工业化试验和试生产实践,重点分析了生产过程中存在的问题,并提出了解决措施。
每逢佳节倍思亲,每年春节上亿人次的人口流动着实牵动着亿万人的心,对于春运期间火车票价是否应该上涨的问题已经被广泛的关注。本文从供给需求曲线入手,通过分析涨价的利弊,得出
试验成功地培养了猪颗粒细胞,并采用激光共聚焦显微技术研究细胞有丝分裂过程中Ran的定位变化。结果表明,猪间期颗粒细胞中,Ran主要分布于细胞核内,核仁内没有Ran分布,细胞质中Ran
应用响应面法对乳酸乳球菌DU101发酵产生乳链菌肽(Nisin)的培养基进行了优化。首先采用Plackett-Burman设计对培养基中8个相关影响因素的效应进行了评价。结果表明,葡萄糖和无
本文运用理论与实证分析相结合的方法,在调查、分析长庆油田矿区服务系统改革、重组、发展的历史与现状,通过借鉴城市和谐社区建设的成功案例,提出了企业主导型和谐社区建设的战
在职业学校物理教学中,要注意初中物理和高中物理知识的不同点,纵览中学物理各部分内容,从教材、教学方法等方面做好教学衔接,努力实现“知识与技能、过程与方法、情感态度与价值
为了解决土壤水分特征曲线获取困难这一问题,简化对曲线的获取方式,本文基于土壤水分特征曲线与Gardner模型,研究对象为山西农耕田的黄土,进行了土壤水分特征曲线的相关测定与拟合,测定了相关土壤基本理化参数与模型的参数并获取了它们之间的对应关系,以土壤传输函数理论为依托试图建立土壤水分特征曲线Gardner模型参数的非线性多元分析预测模型、BP神经预测模型、网格搜索与交叉验证—支持向量机预测模型。主