论文部分内容阅读
在云计算和大数据背景下,数据呈现爆炸式增长趋势。面对这些海量以视频、图片、文字等非结构化数据为主的大数据时,基于传统架构的信息系统已难以应对,同时传统商业智能系统和数据分析软件也缺少有效的分析工具和方法。无论是从商业价值还是技术难度上来讲,实时处理和挖掘是大数据时代的重中之重,所以如何快速获取实时数据是时下的研究热点。针对数据同步系统的功能和性能等要求,该系统提出一种基于缓存优化的实时数据同步机制。系统包括数据抓取、数据解析、数据处理和数据服务四大模块。在数据抓取和数据解析模块,系统实现了基于日志分析的逻辑复制技术,同时内部采用Google Protobuf协议进行交互处理。基于缓存优化策略提出一种按照消费端所订阅的表来划分缓存通道,并且利用分布式服务Zookeeper实现消费一致性以及各节点信息的监控。系统实现了异构数据源的同步,并且支持一份数据多路消费的功能。同时,系统支持动态部署缓存通道和事件源,通过采用环形缓存区减少竞争锁方式实现用户订阅的事件源隔离,提供独立的网络、控制和集群中心。基于缓存优化策略的提出,使得系统提高了后台数据库系统在峰值访问负载下的可靠性、稳定性和高可用性,对降低用户获取实时数据的时延起到了进一步优化作用。测试结果表明,对于缓存的优化策略,与传统的数据落地持久化方式相比,系统在数据洪峰时刻保障了其可靠性、稳定性和数据库访问性能。此外,此策略的提出同时大大的减少了数据同步的时延时间,实现0.1秒级同步速度。