基于MapReduce的XML编码查询算法研究与实现

来源 :武汉纺织大学 | 被引量 : 0次 | 上传用户：lvxiaoyongheyan

【摘要】

：

【作者】

：

魏博文

【机构】

：

武汉纺织大学

【出处】

：

武汉纺织大学

【发表日期】

：

2016年3期

【关键词】

：

XML编码查询

【基金项目】

：

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

XML因其自描述性和可扩展性，已经作为网络中一种主要数据形式得到越来越多的应用。单一XML文档数据量变得越来愈大，而且XML文档具有半结构化的特性，这些因素使得采取结构化的关系型数据库不适用于XML文档的查询处理。如何有效地支持XML数据的查询，尤其是如何有效地满足一定特定语义得到相应的查询结果成为当前的一个研究热点。
　　本文采用MapReduce，它是一个分布式计算框架，应用于大数据开发平台Hadoop中，该平台可部署在廉价的PC集群中，数据会分布在集群中的各个节点中，从而实现数据的并行处理，因而将MapReduce用于XML的数据查询。在对XML文档的查询过程中，很多研究采取将XML文档转化为文档树，对其文档树节点进行编码，其中采用前缀流编码进行相关研究是最多的，但是使用前缀流编码进行编码时，节点编码长度会随着文档树深度的增加而不断变大，编码生成的节点集占用相当大的存储空间。同时，这类编码标记的节点只能在子树间比较节点间的位置关系，这种位置关系是从树的某一层这个角度来分析的，但是从这个XML文档树的角度，无法看出节点的绝对位置。这些因素导致基于该类编码设计的XML查询算法效率普遍不高。
　　根据前缀流编码存在的上述问题，本文提出一种新型编码Xwei码。该编码不同于普通前缀流编码的是采用先序编码，同时对应文档树的节点编码仅保留节点间相对的父子关系，因而文档树的深度增加对编码数据集的大小是没有太大影响的。先序编码方式可以很好地保留XML树的完整结构，基于MapReduce运行机制对整个XML树对应的节点集合进行一定的数据截取，获取较小的节点数据集合，然后使用对应这部分节点间的间接父子关系，设计相应的查询算法，得到满足一定查询语义的结果。
　　本文的实验过程是基于MapReduce计算框架完成的，选择前缀流编码Dewey码，ED码作为比较对象，在编码和查询两个方面做了对比实验。编码实验表明，当文档树深度不高时，Xwei的编码效率比Dewey,ED码高出10%，当提高文档树深度时，Xwei码的编码效率相对Dewey，ED码提高的幅度达到25%以上。在查询实验中，本文是基于查询语义SLCA和ELCA来求解的，Dewey码和ED码采用LISA算法来查询，Xwei码则是根据自身编码特点设计相应的查询算法。实验证明基于Xwei码设计的查询算法是一种高效的XML查询算法，它可以大幅度缩减了查询的流程步骤，从而提高了查询效率。基于两种查询语义的效率对比实验中，Xwei码的查询效率要比Dewey码，ED码高出75%以上。

其他文献

分布式临床决策支持系统中多代理协调机制的研究

复杂疾病的诊疗决策过程十分繁复，单个医疗角色无法对疾病进行准确和快速的诊疗决策，往往需要多个医疗角色参与其中共同作出决策。随着医疗信息化水平的提升，多角色共同参与的决策过程已不再受到地域的限制，而是可以在分布式网络环境中进行。如何在分布式环境中有效地组织、管理各种角色，让他们高效地交流、协作以作出正确的诊疗决策是分布式环境下医疗决策过程中最为关键的问题。为了更好地在分布式环境中组织和管理医疗角色，

学位

多代理协调机制

泄露条件下的秘密共享方案研究

互联网的不断更新变化，对整个世界产生了深远的影响。新技术的出现即改善了人们的生活，同时也带来了一定的挑战。不法分子为获得利益利用新技术实施犯罪，如侧信道攻击可通过对加密设备执行过程中功耗、频率和时间等的检测，进而获得设备执行过程中内部的重要信息，使得现有“安全的”密码方案的安全性所有降低。针对密钥管理与泄漏问题，将抗泄露与秘密共享技术相结合是主要解决手段之一。本文对泄漏条件下的秘密共享方案进行研究

学位

秘密共享

基于hadoop的位置大数据拼车方法研究

现在是一个信息数据爆炸的时代，随着各种移动终端以及互联网、车联网和智慧城市的发展，人们生活中的海量数据信息被记录下来。数据的迅猛增长，从数据的维度为人们提供了新的方式去解读世界，但与此同时海量数据的存储和处理也为人们带来了新的技术挑战。顺应时代需求而产生的大数据处理技术成了当今的热门技术，它不仅可以存储数百TB数据、甚至可以存储数百PB数据，同时它有hadoop的离线式计算框架、storm的流式计

学位

hadoop

一种可信密码系统研究

本论文作者以千年“密码”难题为切入点，以当代严酷的计算机网络安全问题为背景，以构造“不可破译密码”为主线，以“发现问题，提出问题，解决问题”为脉络，围绕提出并验证的“引子密钥理论体系”和引子密钥密码系统结构、算法设计以及相关密码攻击等问题展开。通过对现有密码体制的综合分析和深入研究，发现并论证了一次一密悖论；揭开了国际公认的“无条件安全”的“理想化”的一次一密密码，遇“潜在困难”而昏睡百年的谜团；

学位

不可破译密码

多版本视频云点播系统资源优化调度方法研究

近年来，随着无线通信技术和智能移动终端的成熟和普及，在线视频点播服务发展迅速，通过移动终端点播视频已经变的越来越流行。由于移动设备和接入网络带宽的异构性，视频服务商只提供一种版本的视频流服务无法应对用户不同的需求，多版本视频点播应运而生。然而，多版本视频点播系统面临着视频存储、服务器性能、缓存效率等多方面的挑战。云计算拥有海量数据存储、计算能力和动态可伸缩的扩展能力，有助于应对视频点播遇到的挑战，

学位

云计算

基于图像处理的细胞和金标检测算法及工程实现

时代不停在进步，计算机科学技术伴随着在不断发展，人们对图像的需求在平常的学习生活中也逐步增大，数字图像处理技术由此在目前获得了飞速成长。数字图像处理技术有很多优点，譬如处理和传输便利、应用领域很广和信息量巨大等等，因此在太空探索、医学研究、办公自动化等很多范畴内应用得十分普遍，显示出广泛的应用前景，本文则着重于图像处理在生物医学检测方面的应用研究。　　本文基于一个医学检测平台,能够实现利用数字图像

学位

细胞检测

基于数据手套的虚拟手人机交互的研究

在虚拟现实领域中，由于人手在交互过程中的关键地位，使得关于虚拟手人机交互的研究一直是一个热门课题。相比于传统的人机交互方式，基于虚拟手的交互方式显得更自然、高效，本文主要研究了基于数据手套等虚拟现实硬件的虚拟手人机交互的实现。　　本文首先从虚拟手人机交互的原理出发，分析了虚拟手人机交互框架的各个组成部分，然后详细分析了它们各自所要实现的功能，最后在这个基础上提出了完成这个系统需要解决的主要技术问题

学位

人机交互

经编织物花纹的自动提取

随着我国经编产业的快速发展，新的产品不断开发，我国正由经编大国向经编强国的转变。但是现有的纺织生产和检测技术主要还是依靠人工完成，耗时耗力，主观性强。在一般的来样设计和检测花型是否走样的过程中，都需要将花纹提取出来。但在织物花纹的设计上，很多中小企业还停留在传统的意匠图法，已经不能满足现代化的发展要求，严重降低了我国经编行业在国际上的竞争力。本课题将计算机视觉和图像处理处理技术应用到纺织领域，期望

学位

贾卡经编织物

与设计Minimal OSI高层协议栈分析

本课题针对IEC61850和制造报文规范（ManufacturingMessageSpecification,简称MMS）标准对MinimalOSI高层协议栈的应用要求，完成了一种代码量和所占内存空间比较小，能在中低端嵌入式处理器上运行的MinimalOSI高层协议栈。该MinimalOSI高层协议栈能够运行于中低端嵌入式处理器，具有较高的实际应用价值。　　本课题主要通过研究协议栈的标准和通用协议

学位

制造报文规范

基于剪切波变换的图像处理技术的研究

小波分析是时频分析的有效工具。它的出现解决了Fourier变换在信号分析中不能较好地处理非平稳信号的局限性。小波分析在通信技术、信号处理等方面的应用范围很广。　　经典小波变换在实际生活中应用越来越深入，应用的领域也越来越广泛，如在数据压缩、图像处理等领域具有成功的应用，在理论方面也得到了快速发展。随着应用的逐步深入，小波变换的缺点也日益暴露出来。在处理高维空间中奇异的点时，小波变换不能将它们进行很

学位

剪切波变换

基于MapReduce的XML编码查询算法研究与实现

其他学术论文