【摘 要】
:
XML (eXtensible Markup Language)由于其简单性、可扩展性、交互性和灵活性的特点,已经成为互联网信息的主要交换标准。随着XML应用领域的拓宽,大规模XML数据处理成为一个研
论文部分内容阅读
XML (eXtensible Markup Language)由于其简单性、可扩展性、交互性和灵活性的特点,已经成为互联网信息的主要交换标准。随着XML应用领域的拓宽,大规模XML数据处理成为一个研究热点。Hadoop是基于Map/Reduce框架的分布式计算系统,可部署在廉价个人PC集群上,支持大规模数据并行处理的基于Java的平台,通过将文档分成一系列的数据块,分配到各个节点上并行计算,非常适合海量数据的计算处理。本文研究大规模集群环境下XML数据管理,更准确地说,针对XML的存储、查询、检索技术的每个部分进行研究。XML关键字检索是近年来的研究热点,如何在海量XML数据上保持高性能的检索,引起越来越多的研究者关注。本文重点关注在Hadoop的Map/Reduce架构下进行XML关键字检索的技术,设计了在分布式平台上处理大规模XML数据集的关键字检索算法,包含XML数据划分,编码,索引和查找SLCA四个部分,解决大数据量XML文档的关键字检索问题。通过实验,验证所提出方法的有效性。
其他文献
随着移动机器人领域的研究不断深入,其应用领域也不断得到推广。大规模环境下的移动机器人自主完成作业成为当前研究的热门课题,并在行星探索、军事反恐、灾难搜救等领域拥有巨
现今,计算机系统日趋复杂,对其进行有效的管理变得越来越困难。随着人们需要的日益增加,系统中会同时存在更多的应用软件,服务器,存储器等。要想有效的管理这些要素,确保可靠
随着因特网的高速发展,互联网用户不断增加,电子邮件也成为了日常生活中最普遍、最经济的通讯方式之一。由于其快捷、经济的特点,很多大型企业也将其作为内部的主要交流形式
随着科技的发展,互联网已成为人们生活、工作、学习的重要途径,很多网站、应用、服务都是以Web形式提供给用户,但是互联网的安全形势日益严峻,Web安全漏洞中CSRF漏洞较为容易
随着互联网的飞速发展,互联网已成为全世界最大的信息载体。人们对网络信息的需求量越来越大,越来越个性化,如何从海量的网络数据源中找到用户关心的数据,已成为当前Web信息检索
伴随着信息化的不断持续推进,科学技术开始在各个领域影响着人们的生活。在这个时代,人们每天的交流与通信产生着巨大的数据量,紧接着的互联网普及,无时无刻都存在数据洪流的
服务质量(Quality of Service, QoS)是指与用户对服务满意程度相关的各种性能效果。在软件设计过程中,性能、可用性、可靠性和安全性等QoS方面决定了整个软件系统对于使用者
移动自组网络(Mobile Ad Hoc Network, MANET)在军事、农业、环境监测、医疗卫生、工业、智能交通、建筑物监测、空间探索等领域有着广阔的应用前景和巨大的应用价值,被认为
我国为当今世界上最大的钢铁生产国,在很大程度上主导着世界钢铁行业的价值链。铁矿石作为钢铁的重要原材料,受到钢铁行业的广泛关注。铁矿石品位是影响矿山工作最重要的因素
随着我国经济的飞速发展,汽车的拥有量在不断攀升,汽车拥有量的急剧增加和城市交通建设的相对滞后,导致城市交通不断恶化,道路交通的安全问题正严重威胁着我国经济发展和人民