论文部分内容阅读
画像系统的出现,是互联网发展模式由迅速扩张变为深耕细作的标志。以农业企业为研究主体的企业画像系统能够对农业企业的发展起到导向性的作用。数据存储工作作为一个系统必不可少的部分,在面向农业企业的画像系统(以下简称“农企画像系统”)中同样占有举足轻重的地位。然而,在农企画像系统的数据存储领域,目前存在两个亟待解决的问题:1)该领域并无一套标准化的数据存储方案,既能屏蔽底层的异构数据源,又能屏蔽对异构数据源的中间操作,最终使该方案可以在该领域的同类型系统中实现通用。2)该领域并无一套成熟的数据缓存方案,可以将系统的访问性能、数据的缓存命中率、缓存使用过程中的安全隐患等问题统一考虑在内。本文以上述两个问题为出发点展开研究,主要工作可以总结为以下几点:(1)提出面向农企画像系统的通用数据存储模型。该模型由通用操作算子表达式、解析映射器、操作算子实现集、异构存储工具组成。通用操作算子表达式的定义本着高度抽象的原则,可适用于农企画像系统的各种业务场景,具有稳定性、兼容性等特点。操作算子实现集可以完成异构数据源到异构存储工具的存储工作。解析映射器负责解析操作算子表达式,并将表达式的内容映射到对应的算子实现上。三者通力合作,使存储模型可以做到对上屏蔽掉底层复杂的存储工作,对下屏蔽掉上层复杂的业务场景,降低系统的开发维护成本,提高系统的工作效率,在解决了本系统数据存储问题的同时,也为该领域同类型系统的数据存储工作提供了一套解决方案。(2)提出面向农企画像系统的数据缓存方案。该方案由三层缓存架构的搭建、缓存替换策略的改进、缓存内部存储结构的选取、缓存安全隐患的预防组成。多层冗余的缓存架构,可以将更多的请求拦截在到达数据库之前。安全隐患的处理,可以有效地避免缓存失效、缓存穿透、缓存雪崩等缓存事故的发生。在此基础上提出了改进的C-GDSF(Characteristic Greedy Dual Size Frequency)缓存替换策略,基于三次指数平滑算法预测出数据的特征热度,并结合缓存价值、数据大小、访问频率等维度,计算出最终的数据价值,有效地提高了系统的缓存命中率。最后改进了缓存内部的存储结构,提高了缓存访问和更新的效率。整套缓存方案的提出,不但提高了缓存本身的高效性和安全性,而且也保证了存储系统的平稳运行;更深层次来讲,也为同领域同类系统的数据缓存工作提供了一套解决方案。(3)以中国农业科学院提出的“大数据驱动的农业企业画像关键技术研究”为依托,首先将通用数据存储模型进行实现,并在此基础上进行了相关实验。实验结果表明,应用本文提出的存储模型后,存储服务重复代码率下降28.1%,操作算子实现的平均复用次数达到2.6次,系统的响应速度与未使用数据存储模型时基本相同,并未因数据存储模型的使用而发生明显下降。而后将缓存方案应用于存储模型中,并再次设计相关实验。实验结果表明,系统在使用缓存后,请求响应耗时大幅降低,系统性能大幅提升。使用C-GDSF缓存替换策略可使缓存命中率达到83.1%,在同等条件下,较volatile-lru策略提高3.4%,较volatile-lfu策略提高4.2%,较volatile-random策略提高6.7%。对缓存内部存储结构的优化使得缓存使用的时间复杂度降低。