论文部分内容阅读
随着计算机网络技术的迅速发展和互联网的高速普及,信息数据量正在飞速的膨胀。XML作为一种重要的网络信息交换格式,如何有效的组织和存储正在快速增长的海量XML数据,并提供快速高效的数据检索,是当今信息检索领域的一个研究重点。目前,XML数据的存储和检索一般使用Native XML或者关系数据库,但这类系统无法满足大规模数据的性能需求,而基于分布式的XML数据存储和检索技术则尚未成熟。本文针对以上需求,在对XML和云计算技术的研究基础上,设计并实现了一种海量XML文档存储和检索平台。首先,本文提出了一种XML到HBase的数据映射模型,该模型采用四路编码算法,实现了XML数据到HBase数据之间的映射。其次,本文借鉴了MapReduce的计算模型,采用HBase数据库,设计并实现了以XPath为前端查询语言的数据检索机制,充分利用HBase的特点,提高检索效率。最后,本文设计了一组实验,并通过该实验验证了本文提出的海量XML数据存储和检索平台的性能和有效性。