基于键值对非关系型数据库快速读取方法的研究

来源 :东华大学 | 被引量 : 0次 | 上传用户:soundbo
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网金融的迅速发展,风险防控在电子金融领域内的重要性越来越明显,对金融大数据进行挖掘、分析得到的结果往往在企业运营、决策中发挥着重要作用。大数据的安全存储和高效检索为数据挖掘、分析提供了重要支撑。键值对非关系型数据库常作为大数据的存储数据库,它具有良好的可扩展性、可用性和高并发处理能力。但是,键值对非关系型数据库不支持非主键字段的索引查询,并且使用分布式文件系统作为底层存储时缓存命中率低。因此,本文的主要工作包括以下三个部分:
  首先,针对键值对非关型数据库只支持主键(行键)建立索引可以进行索引查询,而对非主键不支持建立索引这一问题,本文提出一种动态混合索引DHI(Dynamic Hybrid Index)方法。该方法对非主键字段建立额外的索引结构,并将非主键字段按查询频率分为高频字段和低频字段两类。高频字段通过建立详细索引实现快速索引查询的目的,而对低频字段建立概要索引提升查询效率的同时节省存储空间。最后通过字段权重动态地调整字段索引类型以满足不同时刻的查询需求。通过实验表明,本文中提出的动态混合索引 DHI 方法与现有的非主键索引方法相比范围查询性能提升了29.4%,并且索引占用的存储空间节省了28.5%。
  其次,针对键值对非关系型数据库底层存储使用分布式文件系统时采用基于文件块形式的缓存,使得面向数据表记录的查询命中率低这一问题,本文建立了分布式存储模式中面向记录的缓存结构,提出了一种双队列K频次缓存方法——DLK(Double-LRU-K)。该方法提出了双队列存储结构,针对高频访问数据和低频访问数据应用不同的置换规则。同时,该方法将缓存空间分为了列表区和数据区,用不同的数据结构组织数据,降低了数据访问和处理的时间。实验表明,使用本文提出的缓存方法后查询时间降低了 30%;与 LRU、LRU-K、2Q 等置换算法相比较,命中率最大提升了 60.1%,查询时间最大降低了43.5%;并且,DLK方法在较小缓存容量下性能更优。
  最后,非关系型数据库不提供可视化操作界面,并且学习使用非关系型数据库耗时长、学习成本高,本文设计并实现了风险防控平台的大数据存储子系统。在非关系型数据库的基础上,结合了本文提出的非主键索引和读缓存方法,优化了数据的读写效率。使用B/S结构为用户提供了可视化操作界面和统一的访问API接口,简化了用户操作数据库的复杂度,降低了非关系型数据库使用的学习成本。
  综上所述,本文针对键值对非关系型数据库不支持建立非主键索引和底层分布式文件系统只提供基于文件块的缓存方法的问题,提出了动态索引方法,对非主键字段建立详细索引和概要索引并实现了动态调整。同时,提出了分布式环境下面向记录的缓存结构,提升了检索记录的缓存命中率。最后,在风险防控平台中实现了大数据存储子系统,方便了用户的使用。本文所做的研究为大规模数据的挖掘提供了存储检索支撑。
其他文献
第五代移动通信即将来临,要求数据速率提高100~1000倍,设备连接数提高10~100倍,对频谱效率和能量效率提出了更高的要求。由于非正交多址技术(Non-Orthogonal Multiple Access, NOMA)可以极大提高频谱效率,因此成为了下一代移动通信候选方案之一。但是数据量的急剧增长,也导致了极大的能量消耗。因此,绿色通信也是未来研究的重要趋势之一。基于以上研究背景,针对功率域N
频谱资源不受限制、设备成本低以及与现有无线电磁波通信互不干扰等特点使可见光通信成为扩充无线通信系统容量、提升通信覆盖率的一种重要候选技术。多输入多输出(Multiple-Input Multiple-Output, MIMO)技术对无线电磁波通信系统通信容量的大幅度提升为室内可见光通信系统传输方案的设计提供了重要的参考和借鉴,室内多光源布局的天然条件更加便利了MIMO技术在室内可见光通信系统中的应
近年来,我国逐步建成了防守型的海洋防御体系,海防雷达正发挥着越来越重要的作用。海防雷达的海表面目标检测(特别是海表面的小目标检测)技术,在军用和民用均有着重要的地位,它广泛地应用于海洋安全、海事救生、监控非法走私等领域。在各种检测方法中,对目标所在背景环境中的噪声及海杂波进行有效的处理十分重要,这直接影响目标检测的性能。而海面情况极其复杂,天气、浪涌等因素给目标检测带来了极大地困难和挑战,在复杂的
学位
序列-序列模型是人工智能领域(特别是自然语言处理领域)普遍使用的模型之一。这个模型能够使用一个统一的框架,直接将输入序列转化为输出序列。许多问题都能够转化为这种形式的问题,进而能够使用序列-序列模型进行求解。无论是机器翻译、句法分析还是语音识别,通过对问题的输入和输出的形式进行合理的变换,我们可以对众多问题得到一个统一的解法。另一方面,句法信息是计算语言学的一个重要的组成部分。许多研究已经证明了句
学位
无人机(Unmanned Aerial Vehicle,UAV)由于其灵活性、易部署、低成本和可扩展性等特点已经被广泛地应用于不同的场景中,但是单架UAV系统受到功能简单、覆盖范围有限的限制使它们不能扩展到更多的应用中。为了克服单架UAV系统的不足,利用不同UAV之间的协作建立ad hoc模式的网络,称为飞行器自组织网络(Flying Ad Hoc Networks,FANETs),来扩展应用范围
学位
随着信息化时代的到来,各行各业每天都会产生大量的文本数据。仅靠人工的方式进行整理,将消耗大量的人力和物力。如果能从海量的文本数据中提取出简短的主题信息,将大大提高用户的处理效率。  主题陈述短句的提取旨在对大量以自然语言形式存在的中文文本进行主题的提取概括,最终形成精简的,以自然语言方式呈现的主题信息。主题陈述短句保留了原句中关键词间的语义关联信息,便于后续的文本统计分析。由于不同领域的中文文本通
学位
随着计算机科学与医疗大数据的不断发展,越来越多的医疗机构开始尝试使用药物不良反应(Adverse Drug Reactions, ADR)主动发现系统代替原始人工方法对不良反应进行筛选和记录。当前,医疗机构要求医院管理系统(Hospital Information System,HIS)中包含的药物不良反应主动发现系统能够对非结构化电子病历文本中涵盖的药物不良反应进行挖掘。但大多数药物不良反应主动
随着国内电子政务的高速发展,城市网格管理系统作为智慧城市的一部分,每天收集了大量由网格员和市民上报的城市管理案事件数据。从这些海量数据中获取有价值的潜在信息应用于城市管理过程中,可以帮助管理者解决公共安全、公共卫生、资源分配等城市问题,提高城市管理效率和服务水平。  本文面向城市管理案事件数据管理和智能分析的需求,建立数据仓库模型,实现智能分析与应用业务的快速集成。在此基础上,进一步实现了案事件时
随着智能移动终端的快速发展和应用,越来越多的文本数据具有地理位置属性和时间属性。这种具有时空属性的数据带来了新的数据分析问题。例如,在社交媒体中用户想知道指定区域内最近热门的话题,那么查询的目的是返回该时空区域内所有帖子中热度最高的若干个关键词。针对特定时空区域,查询该区域内热度最高的k个关键词,论文称之为Top-k时空热度关键词查询(Top-k Heat Spatial-Temporal Wor
The number of vehicles is increasing exponentially day by day all over the world. A few decades ago, in a span of 10 years (1990–1999), 39.2 million cars were sold worldwide in comparison to 81.5 mill
学位