论文部分内容阅读
信息化时代,各种数据源持续不断地产生大量的数据。在过去,由于需求和软硬件方面的原因,持续的数据流处理系统对数据持久化提供了有限的支持。然而随着业务和场景的不断变化,大规模实时流式数据有了持久化需求,这些流式数据大多具有时序性,并且数据的读写成本很高,因此要求在初次持久化时就能有序地保存这些时序数据。本文通过分析时序数据流的特征和存储需求,设计了面向动态时序数据的持久化算法和排队系统模型,并由此实现了一个面向时序数据流的分布式缓存系统,该系统为时序数据流提供了可扩展的有序持久化存储解决方案,既保证了数据存储请求的快速响应,又保证了时序数据能有序地持久化存储。本文完成的主要工作如下:首先,分析了时序数据流的特征以及存储需求,提出了两种针对时序数据流的有序持久化算法,依据排队论描述系统并建立模型,对系统的设计优化问题进行了求解。利用该算法和模型可以保证动态时序流式数据有序持久化写入磁盘,减少系统后续对历史数据的排序成本。其次,结合时序数据流持久化算法和模型,并借鉴当前主流的分布式系统架构思想,设计了一个面向时序数据流的分布式缓存系统。该系统可以支持大量动态时序流式数据的排序与缓存,并具有高效的持久化存储性能,能保证动态时序数据的有序性持久化,系统利用内存数据库和批量持久化大大提高了时序数据的并发存储请求与实时响应性能。最后描述了分布式缓存系统的设计和实现过程,并利用真实的用户行为日志数据,对系统进行了测试,验证了该分布式缓存系统以及持久化模型的有效性和可行性。