论文部分内容阅读
随着互联网金融的迅速发展,风险防控在电子金融领域内的重要性越来越明显,对金融大数据进行挖掘、分析得到的结果往往在企业运营、决策中发挥着重要作用。大数据的安全存储和高效检索为数据挖掘、分析提供了重要支撑。键值对非关系型数据库常作为大数据的存储数据库,它具有良好的可扩展性、可用性和高并发处理能力。但是,键值对非关系型数据库不支持非主键字段的索引查询,并且使用分布式文件系统作为底层存储时缓存命中率低。因此,本文的主要工作包括以下三个部分:
首先,针对键值对非关型数据库只支持主键(行键)建立索引可以进行索引查询,而对非主键不支持建立索引这一问题,本文提出一种动态混合索引DHI(Dynamic Hybrid Index)方法。该方法对非主键字段建立额外的索引结构,并将非主键字段按查询频率分为高频字段和低频字段两类。高频字段通过建立详细索引实现快速索引查询的目的,而对低频字段建立概要索引提升查询效率的同时节省存储空间。最后通过字段权重动态地调整字段索引类型以满足不同时刻的查询需求。通过实验表明,本文中提出的动态混合索引 DHI 方法与现有的非主键索引方法相比范围查询性能提升了29.4%,并且索引占用的存储空间节省了28.5%。
其次,针对键值对非关系型数据库底层存储使用分布式文件系统时采用基于文件块形式的缓存,使得面向数据表记录的查询命中率低这一问题,本文建立了分布式存储模式中面向记录的缓存结构,提出了一种双队列K频次缓存方法——DLK(Double-LRU-K)。该方法提出了双队列存储结构,针对高频访问数据和低频访问数据应用不同的置换规则。同时,该方法将缓存空间分为了列表区和数据区,用不同的数据结构组织数据,降低了数据访问和处理的时间。实验表明,使用本文提出的缓存方法后查询时间降低了 30%;与 LRU、LRU-K、2Q 等置换算法相比较,命中率最大提升了 60.1%,查询时间最大降低了43.5%;并且,DLK方法在较小缓存容量下性能更优。
最后,非关系型数据库不提供可视化操作界面,并且学习使用非关系型数据库耗时长、学习成本高,本文设计并实现了风险防控平台的大数据存储子系统。在非关系型数据库的基础上,结合了本文提出的非主键索引和读缓存方法,优化了数据的读写效率。使用B/S结构为用户提供了可视化操作界面和统一的访问API接口,简化了用户操作数据库的复杂度,降低了非关系型数据库使用的学习成本。
综上所述,本文针对键值对非关系型数据库不支持建立非主键索引和底层分布式文件系统只提供基于文件块的缓存方法的问题,提出了动态索引方法,对非主键字段建立详细索引和概要索引并实现了动态调整。同时,提出了分布式环境下面向记录的缓存结构,提升了检索记录的缓存命中率。最后,在风险防控平台中实现了大数据存储子系统,方便了用户的使用。本文所做的研究为大规模数据的挖掘提供了存储检索支撑。
首先,针对键值对非关型数据库只支持主键(行键)建立索引可以进行索引查询,而对非主键不支持建立索引这一问题,本文提出一种动态混合索引DHI(Dynamic Hybrid Index)方法。该方法对非主键字段建立额外的索引结构,并将非主键字段按查询频率分为高频字段和低频字段两类。高频字段通过建立详细索引实现快速索引查询的目的,而对低频字段建立概要索引提升查询效率的同时节省存储空间。最后通过字段权重动态地调整字段索引类型以满足不同时刻的查询需求。通过实验表明,本文中提出的动态混合索引 DHI 方法与现有的非主键索引方法相比范围查询性能提升了29.4%,并且索引占用的存储空间节省了28.5%。
其次,针对键值对非关系型数据库底层存储使用分布式文件系统时采用基于文件块形式的缓存,使得面向数据表记录的查询命中率低这一问题,本文建立了分布式存储模式中面向记录的缓存结构,提出了一种双队列K频次缓存方法——DLK(Double-LRU-K)。该方法提出了双队列存储结构,针对高频访问数据和低频访问数据应用不同的置换规则。同时,该方法将缓存空间分为了列表区和数据区,用不同的数据结构组织数据,降低了数据访问和处理的时间。实验表明,使用本文提出的缓存方法后查询时间降低了 30%;与 LRU、LRU-K、2Q 等置换算法相比较,命中率最大提升了 60.1%,查询时间最大降低了43.5%;并且,DLK方法在较小缓存容量下性能更优。
最后,非关系型数据库不提供可视化操作界面,并且学习使用非关系型数据库耗时长、学习成本高,本文设计并实现了风险防控平台的大数据存储子系统。在非关系型数据库的基础上,结合了本文提出的非主键索引和读缓存方法,优化了数据的读写效率。使用B/S结构为用户提供了可视化操作界面和统一的访问API接口,简化了用户操作数据库的复杂度,降低了非关系型数据库使用的学习成本。
综上所述,本文针对键值对非关系型数据库不支持建立非主键索引和底层分布式文件系统只提供基于文件块的缓存方法的问题,提出了动态索引方法,对非主键字段建立详细索引和概要索引并实现了动态调整。同时,提出了分布式环境下面向记录的缓存结构,提升了检索记录的缓存命中率。最后,在风险防控平台中实现了大数据存储子系统,方便了用户的使用。本文所做的研究为大规模数据的挖掘提供了存储检索支撑。