面向大数据查询的索引技术研究

来源 :山东大学 | 被引量 : 0次 | 上传用户:ahhaa
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网技术的飞速发展,全球数据量呈爆炸性增长,并且数据种类极为丰富,传统的存储模型和索引技术已经无法适用于现今的大数据管理环境中。因此,针对大数据的特点和需求,借鉴传统索引技术的设计思想,研究面向大数据的索引技术已经成为学术界比较关注的研究课题。大数据具有多样性,也就是说组织中的数据不再单单是过去传统的结构化的关系型数据,还包括来自网页、社交媒体、电子邮件等大量非结构化数据。由于两种数据具有异构性,所以经常被分开存储和处理,但在一个应用系统中,往往存在大量的相互关联的异构数据,而当用户需要搜索这些数据时,亟需要一种索引机制实现结构化和非结构化数据的快速统一访问。而在过去的研究中,只是针对某一种数据类型的索引技术进行研究和应用,对异构数据索引技术的研究工作还很少,极其缺乏一个完善的索引机制用于解决异构海量数据的查询问题。除多样性外,大数据还具有一个明显的特征便是海量性。为了存储海量的数据,出现了很多具有代表性的分布式存储和管理系统,如Google的分布式文件系统GFS、雅虎的PNUTS、Hadoop的HDFS等。但它们大部分只提供简单的基于主键的快速查询,因缺乏必要的索引等机制,而无法高效地支持多种查询方式,如范围查询、非主键查询等。因此,为满足用户的多样化查询需求,提高数据查询处理的效率,对海量数据的索引技术展开研究已成为一个亟待解决的挑战性问题。针对上述两个方面的问题和挑战,本文主要做了以下工作:(1)提出一种关联索引模型,用于解决海量异构数据的统一查询问题。该索引机制利用结构化数据与非结构化数据之间对共同实体的描述来建立联系,并将该实体作为关键字创建索引。索引的结构采用web上广泛使用的RDF元数据形式,来描述实体与结构化和非结构化资源之间的对应关系。为了减少关联索引的冗余以及快速定位相应资源,本模型在关联索引层之下又引入辅助索引层,分别为结构化数据创建B+tree索引,为非结构化的自由文档创建基于实体的倒排索引。该关联索引模型很好的解决了结构化数据和非结构化数据索引分离的问题,为混合数据的查询提供了统一的接口。最后通过实验结果分析表明,该索引体制不仅能够有效地支持异构数据的混合查询,而且还提高了查询结果的准确性。(2)提出一种两级位图索引模型,将精简的位图索引模式应用到大数据环境中,结合MapReduce并行计算框架为存储在分布式文件系统中的海量数据分别创建基于分块级别的位图索引和记录级别的位图索引。分块级别的位图索引相当于一个全局位图,指示某个属性值在各个分块中的存在情况,从而避免查询不相关的分块,而记录级别的位图索引则相当于一个局部位图,指示了在一个分块内部属性值的分布情况,从而可以过滤掉不相关的记录,快速定位目标元组。该索引方案从两个层次上避免了读取无用数据,从而有效提高了海量数据的处理效率。最后实验结果证明,该索引机制不仅具有较少的时间开销和空间开销,而且明显优于无索引环境。
其他文献
数据挖掘是指从大量的数据中发现潜在的、有用的知识的过程。关联规则挖掘是数据挖掘的主要研究内容,它从大量的数据项中寻找隐藏着的联系或相关性。Apriori算法是关联规则挖
随着互联网技术的蓬勃发展及其普及应用,用户迈入了信息快速发展的时代。一方面,如此庞大的信息库满足了用户对各类信息的需求,而另一方面,信息库中内容过于繁杂,想要准确检
随着社会现代化程度的不断提高,计算机动画仿真技术的应用需求也越来越大,在计算机游戏、动画以及影视广告领域中都有仿真技术的身影。而自然景物诸如海浪、云、烟、火焰、雨
大规模数据的共享和访问引发了网络技术的迅速发展,结合传统计算机的应用,出现了云计算这一新的计算模型。云计算以其容错性强、成本低廉等优势获得广泛的研究与应用,与此同
随着计算机网络通信技术,高速半导体技术,音视频压缩技术的迅猛发展,人们对视听产品的移动化,便携化的需求日益强烈,比如远程视频监控,可视电话,视频点播等业务,而这些业务的
论文主要阐述了在IP机顶盒上基于SIP协议的PRESENCE业务的实现。目前,机顶盒不再局限于作为家用多媒体的数字平台,更多的将是家庭间的互通,家庭之间多媒体信息的共享和家庭的
随着网络的演进和融合,传统的消息业务已经不能适应未来网络和用户的发展需求,消息类业务的融合呈现出一种必然的趋势。现有的各种消息业务(包括SMS、MMS、IM、MEM、PoC等)都
随着网络技术的高速发展,网络信息的安全性显得越来越重要。访问控制是以一种特定的方式限制用户的访问能力和访问范围,以此来保证信息安全。本文以中国-加拿大政府合作项目
在我们的工作、生活以及学习中,人们的思想、行为、感情经常受到他人的影响,这种影响是广泛存在的,比如在生活中受朋友影响去看某一部电影,在工作中受同事影响改变工作方法,
信息化交互频繁的现代社会提高了对个人身份验证的要求与标准,从而催生了生物特征识别技术,常用于身份鉴别的生物特征主要有:人脸、指纹、掌纹、静脉、虹膜、步态、声音、手写