一种海量XML文档存储和检索平台的研究与实现

来源 :西安电子科技大学 | 被引量 : 0次 | 上传用户：anny250

【摘要】

：

随着计算机网络技术的迅速发展和互联网的高速普及，信息数据量正在飞速的膨胀。XML作为一种重要的网络信息交换格式，如何有效的组织和存储正在快速增长的海量XML数据，并提供快速

【作者】

：

王玉操

【机构】

：

西安电子科技大学

【出处】

：

西安电子科技大学

【发表日期】

：

2013年期

【关键词】

：

XML 分布式存储 HBase 映射模型 XPath查询

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

随着计算机网络技术的迅速发展和互联网的高速普及，信息数据量正在飞速的膨胀。XML作为一种重要的网络信息交换格式，如何有效的组织和存储正在快速增长的海量XML数据，并提供快速高效的数据检索，是当今信息检索领域的一个研究重点。目前，XML数据的存储和检索一般使用Native XML或者关系数据库，但这类系统无法满足大规模数据的性能需求，而基于分布式的XML数据存储和检索技术则尚未成熟。本文针对以上需求，在对XML和云计算技术的研究基础上，设计并实现了一种海量XML文档存储和检索平台。首先，本文提出了一种XML到HBase的数据映射模型，该模型采用四路编码算法，实现了XML数据到HBase数据之间的映射。其次，本文借鉴了MapReduce的计算模型，采用HBase数据库，设计并实现了以XPath为前端查询语言的数据检索机制，充分利用HBase的特点，提高检索效率。最后，本文设计了一组实验，并通过该实验验证了本文提出的海量XML数据存储和检索平台的性能和有效性。

其他文献

基于快速局部均值估计的噪声水平估计算法及其应用研究

近年来,随着社会的进步和数字信息化的高速发展,图像在日常生活中得到了广泛应用。然而,由于各种图像处理设备性能的不完善,导致图像在获取、传输和存储的过程中容易受到各类

学位

图像去噪图像噪声水平评估局部均值估计K-means聚类BM3D算法

基于时域背离特征分析的托攻击检测算法研究

推荐系统作为一种新型的信息过滤技术手段,可以有效解决信息过载问题。然而,随着互联网信息的内容复杂度、访问人数、攻击手段的快速增加与变化,现有推荐系统暴露了很多不足,

学位

托攻击检测时域背离特征高斯混合模型数据差异度

基于模糊概念格的影视个性化推荐研究

形式概念分析是德国数学家Wille教授于1982年提出的。经过三十年的发展，已经应用于多个领域，如知识发现、机器学习等。形式概念分析的核心数据结构是概念格，因此其应用的核心就

学位

数据挖掘概念格模糊概念格关联规则挖掘个性化推荐

基于中文Web文本的分类研究与系统实现

随着计算机网络技术的发展，网络信息变得越来越海量，同时也越来越复杂，人们在浏览网页新闻时能否快速找到自己感兴趣的类别是判别该网站优劣的一个重要标准，传统的是靠人工方法对

学位

网络信息文本分类支持向量机特征选择朴素贝叶斯K最近邻算法

面向微小卫星的Smart-OSEK OS关键技术研究

随着国内外微小卫星技术的不断发展，微小卫星系统的功能越来越复杂、越来越强大，传统的不具备操作系统的微小卫星系统已经无法满足功能性上的需求。对于提供微小卫星上功能模块

学位

微小卫星实时操作系统代码动态更新功能扩展

基于Shearlet与改进PCNN的图像融合方法研究

本文从多尺度几何分析，尤其是Shearlet变换的角度出发，初步探讨了一些基于多尺度几何分析和脉冲耦合神经网络(PCNN)的图像融合算法及其改进方法，并成功地将其应用在多种图像融合

学位

多尺度几何分析Shearlet变换脉冲耦合神经网络图像融合

基于红外多点触摸的地理信息系统

目前，多点触摸技术已经在多种触摸识别系统中得到了应用，如使用电阻或电容式触摸屏的小型移动设备，但是将多点触摸技术与桌面GIS (GeographyInformation System)结合使用的应用

学位

多点触摸技术GISTUIO手势识别

基于计算智能的无线传感器网络自组织方法研究

无线传感器网络是一种由资源受限的传感器节点构成的自组织网络，如何构建高效节能的自组织方法是其研究的重要问题。计算智能属于仿生类算法，其潜在并行性、自组织性和分布式特

学位

无线传感器网络自组织方法计算智能动态文化基因算法自组织特征映射细菌觅食优化算法

生物医学信号相似性分析方法的研究

生物医学信号是由复杂生命体发出的自然信号，通过记录和分析生物医学信号可以了解人体的健康状况及机体器官的机能变化。生物信号中的电信号，如心电信号、脑电信号、脉搏信号等

学位

生物信号相似性分析窗口斜率表示法离散小波变换阈值选取

二值化图像特征及其应用

提取有效的图像特征是许多计算机视觉问题的重要步骤,往往决定了计算机视觉方法的成败。随着互联网和手持设备的普及,大规模的图像视频资料的实时处理已成为计算机视觉乃至整

学位

二元特征哈希算法关键点匹配拷贝检测

一种海量XML文档存储和检索平台的研究与实现

与本文相关的学术论文