支持查询的XML数据压缩方法研究

来源 :中国石油大学(华东) | 被引量 : 0次 | 上传用户:jeff2047
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网技术的迅猛发展,XML已逐渐成为数据表达和交换的新标准,越来越多的Web数据通过XML文档形式呈现。XML以其半结构化、自描述性、易于交换和可扩展性等特点在很多行业得到广泛的应用。但是,XML的这些特点也使其存在大量的数据冗余,模式和数据混杂导致模式信息在数据中存在大量重复,极大地增加了数据存储、交换和处理的代价,严重阻碍了XML数据库更深入、更广泛的应用。XML数据压缩技术成为提高XML数据管理的一种有效途径。当然,压缩XML文档不是最终目的,如果通过完全解压缩实现对压缩数据的查询处理操作,必然会造成系统的负担,因此支持查询的XML数据压缩成为发展的必然。本文主要研究支持查询的XML数据压缩技术,针对已有XML压缩方法的缺点和不足,提出了两种支持查询的XML数据压缩方法。针对XML文档存在的重复结构和重复数据问题,通过去除XML数据中的重复路径,简化XML数据的结构,本文提出结构标记树的概念和详细算法。建立了一种基于结构标记树的可查询XML数据压缩方法SSTQC (a Structure Sign Tree based Queryable Compressor),对XML数据进行压缩和组织查询。SSTQC一次扫描XML文档,拥有出色的压缩性能和较好的查询效率。针对大多数XML压缩方法不能很好地支持Twig查询的问题,本文提出一种能够支持Twig查询的XML数据压缩算法TXQC (a Twig query-supported XML Queryable Compressor)。利用前缀编码的良好特性,根据XML数据的树型结构采用模式匹配的方法来获取Twig查询结果。相对于其它的XML数据压缩方法,在处理XML复杂路径查询时,TXQC的查询策略更加高效。
其他文献
手机通讯时人类历史上迄今为止最为便捷的通讯手段,它有随时,随地,随身的特点,已经成为第五媒体。在一些偏远地方,手机可弥补传统业态渠道在时间和空间的不足。短信、彩信及w
随着社会和网络技术的发展,产生了大量的图像信息。如何对这些图像进行分类、存储和检索,一直是目前计算机技术的一个研究的热点。由于图像基于情感的分类检索可以极大的提高
近年来,社会的飞速发展,伴随而来的就是大量的数据的产生。对于这些海量的数据,人们希望能过其中的大部分数据找出某些规律来指导人们日常的行为。在这个过程中,人们大多数情
随着无线通信、集成电路、传感器以及微机电系统等技术的飞速发展和日益成熟,低成本、低功耗、多功能的微型传感器的大量生产成为可能。无线传感器网络就是由部署在监测区域内
计算机博弈是人工智能领域里的热点研究课题。传统计算机博弈模型使用极大极小搜索与评估函数相结合的方式,棋力高低依赖于搜索的深度。在计算性能较低的平台上搜索深度加深
僵尸网络是互联网上被僵尸主人控制的一群计算机,僵尸主人利用僵尸网络进行各种攻击或盗取机密信息。僵尸网络通过病毒或恶意软件传播,对计算机有很高的控制能力,危害程度高于一
大学校友是高校拥有的巨大潜能的人力资源,是学校的宝贵财富,是学校良好声誉的创造者,也是学校进一步发展的重要资源,得到了越来越多的重视。然而目前校友资源的管理手段落后,不能
随着计算机技术和网络技术的迅速发展,现代社会逐步向数字化、信息化、网络化迈进。与此同时,基于IC卡的消费也越来越多。目前大多数IC卡消费仅仅保存消费的数据信息(如消费的
Rootkit是能够长久且难以检测地存在于计算机系统中的一套程序和代码。由于Windows操作系统的普及性,针对Windows系统的Rootkit逐渐流行起来。Windows:Rootldt能够对操作系统中
传统网络体系结构中,新技术的应用需要通过标准化过程来实现,然而协议标准化的周期较长,新技术从研究成功到实际应用是一个漫长的过程,这严重地制约了新技术的发展。因此提出