基于子序列匹配的压缩XML查询

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户：zeuswugeng

【摘要】

：

XML在许多应用中已经成为数据交换的标准。然而,XML数据的自描述特性和半结构化特性使得XML数据中存在大量的数据冗余,这使得人们在获得XML数据带来的灵活性的同时不得不忍受

【作者】

：

高鸿远

【机构】

：

哈尔滨工业大学

【出处】

：

哈尔滨工业大学

【发表日期】

：

2009年期

【关键词】

：

XML数据压缩查询处理序列匹配

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

XML在许多应用中已经成为数据交换的标准。然而,XML数据的自描述特性和半结构化特性使得XML数据中存在大量的数据冗余,这使得人们在获得XML数据带来的灵活性的同时不得不忍受数据存储和数据交换的低效率。数据的XML表示格式经常比其它表示格式多占用5到10倍的空间。尽管国内外已有不少关于XML压缩方面的研究,但是尚没有一种压缩方法支持在压缩文档上直接执行包括Twig查询在内的各种复杂查询。为了提高XML数据存储和数据查询的效率,本文研究XML数据的压缩方法,以及在压缩XML数据上直接执行复杂查询的方法。本文的压缩方法在对文档进行压缩时保留了源文档的框架,这使得本文的查询算法可以在压缩文档上直接工作而无须解压文件,也使得许多XML处理工具只需经过少量修改就能在压缩文档上工作。本文的压缩方法减少了XML文档的存储空间,也加快了在查询时由文档到序列的转换速度。实验表明本文的压缩算法在支持查询情况下仍具有较低的压缩率和较快的压缩速度。本文的查询方法首先把XML文档和XML查询按一定规则转换为序列,然后在这两个序列上进行子序列匹配,子序列匹配的结果再经过结构约束检查以得到最终的查询结果。这种查询方法支持在本文的压缩方法上直接执行包括Twig查询在内的各种复杂查询。这一算法既可以工作在经本文的压缩方法压缩过的XML文档上,也可以工作在普通的未压缩的XML文档上。在整个查询过程中,序列匹配算法是关键。本文指出了现有的序列匹配算法的缺点并提出了新的序列匹配算法。理论分析和实验都表明本文的算法在执行时间上要大大优于现有算法。此外,本文还提出了为文档序列建立索引、文档序列的整数化、同时进行序列匹配与结构检查等优化策略以加快查询的执行。

其他文献

面向通用企业应用安全框架的设计与实现

随着现代企业的发展和信息化程度不断提高，企业的各种信息系统日益庞大和复杂，系统安全形势也日益严峻。企业应用系统的每个环节都有可能遭到安全威胁，应用系统需要保护众多的资

学位

企业应用平台系统架构访问控制Acegi安全框架

统计机器翻译中命名实体处理研究

随着信息技术的发展,不同语言之间的沟通和交流变得越来越重要,在此背景下机器翻译等自然语言处理技术得到长足发展。作为当前研究热点之一,命名实体识别及翻译技术正广泛应

学位

统计机器翻译命名实体识别命名实体翻译双语命名实体对齐规则抽取

面向问答系统的复述识别技术研究与实现

自然语言处理各种底层技术的不断发展,如分词、词性标注、句法分析等技术的逐渐成熟,为更深层次的研究奠定了基础。目前,越来越多的研究人员开始把目光转向自然语言理解。复

学位

复述语句语义相似度句法分析句式变换

基于事件注入的面向应用的软件健壮性评测

随着Windows操作系统在可靠性方面的不断完善以及其良好的用户界面,此操作系统以及其之上的软件产品应用到社会的各个领域,人们对软件的性能和可靠性有了更高的要求。软件产

学位

健壮性健壮性评测故障注入

物联网安全协议形式化分析与验证

物联网技术在各行各业应用越来越广泛,对物联网技术的研究也越来越多。随着物联网技术中硬件和软件的广泛应用,安全问题也日益突出。对消息传递中的通信主体进行身份验证,对

学位

物联网安全协议形式化验证串空间模型

基于近似字符串理论的信息匹配方法研究与应用

业务的快速增长和行业间竞争的加剧,使得如何提高服务质量并降低生产成本成为电信行业发展的关键。由早期基础建设管理和规划的不完善所导致的信息孤岛等问题,使得管理层无法

学位

通信网络资源数据信息匹配同步与优化算法

无线局域网EDCA信道访问机制研究和改进

近年来，无线局域网(WLAN)以其安装便捷、使用灵活等优势，得到了大规模的部署。WLAN上承载的业务也覆盖了从标准互联网业务到实时业务的范围。实时业务对服务质量(QoS)有较高的

学位

无线局域网信道访问服务质量网络负载竞争机制

基于多维频繁子树模式的中文问句中心词识别研究

中文问句中,疑问词与中心词揭示了问句的大部分信息,因此,在中文问句处理中,识别疑问词与中心词变得尤为重要。由于中文的疑问词相对固定,数量也不多,故疑问词的识别准确率很

学位

多维树依存关系树模式精简规则冲突中心词

基于意见挖掘的产品排名技术研究

随着Internet网络的不断发展,消费者通过商家的网站、网络论坛、BBS以及Blog发表关于各种产品的评论信息。商家、厂家可以通过分析这些评论信息获取反馈意见;消费者可以通过

学位

意见挖掘产品排序数据挖掘情感分析

基于Java/CORBA实现网元管理系统

为适应电信网技术飞速发展和名目繁多的电信新业务的需要,ITU-T(International Telecommunication Union-Telecommunication Sector,国际电信联盟-电信标准局)提出了对电信网

学位

JAVA公共对象请求代理体系结构电信管理网同步数字系列网元管理系统

基于子序列匹配的压缩XML查询

与本文相关的学术论文