基于最紧致片段XML关键字检索研究

来源 :山东大学 | 被引量 : 0次 | 上传用户：beilei

【摘要】

：

XML(Extensible Markup Language)是被W3C基于标准的广义标记语言所创建，被用作定义语义标记。在Web服务、电子商务、数字图书馆等诸多网络相关应用领域已经成为描述数据的事

【作者】

：

杨善勇

【机构】

：

山东大学

【出处】

：

山东大学

【发表日期】

：

2011年期

【关键词】

：

关键字查询层次编码有效同祖先最紧致片段广义标记语言信息检索

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

XML(Extensible Markup Language)是被W3C基于标准的广义标记语言所创建，被用作定义语义标记。在Web服务、电子商务、数字图书馆等诸多网络相关应用领域已经成为描述数据的事实上的标准。为了方便用户从海量的XML数据中提取他们所需要的信息，许多XML数据查询算法应运而生，使得XML数据查询成为XML数据管理领域的一个热点。　　通常，XML数据查询算法按照查询模式描述的不同分为两类，即XML结构查询和XML关键字查询。前者多采用了正则表达式的描述方法，偏向于传统的结构化的查询方式，能够清楚的表述用户的查询意图；后者融入了信息检索领域常用的查询思想和方法，允许用户仅仅输入关键字就能够进行查询。　　 XML结构查询算法根据精确的查询条件，能够输出理想的查询结果。然而，该算法对进行查询的用户也提出了更高的要求，即不仅要熟悉结构查询算法所采用的查询语言，而且还要了解待查询的XML文档树结构。以上要求对于绝大多数用户而言是不切实际的，而XML关键字查询很好的解决了以上的问题，所以从用户的角度出发，XML关键字查询是一种能够被广泛使用的查询方法。　　 XML关键字查询方式中最关键的问题是如何求解包含所有关键字的最紧致片段，即SLCA(Smallest Lowest Common Ancestors)问题。目前已有许多求解算法，包括Stack、ILE、SE、LISA和LISAⅡ等。ILE和SE在与Stack的实验对比中表现得效率更高，适合需要频繁I/O操作的海量XML查询，他们仅需要顺序读取XML数据一遍；相比ILE和SE，LISA和LISAⅡ在轻量级XML查询中，无论是在理论分析上还是试验对比中都表现出了更好的性能。　　然而，LISA不仅需要频繁扫描节点，而且需要引入集合交操作，耗费了大量CPU周期。LISAⅡ虽然在避免不必要扫描方面改进了LISA算法，但却使用了自己独有的编码，不仅引入了编码映射，而且也使得该算法的通用性大大削弱。这两种算法即便作为一种仅在内存中执行的算法，以上缺点也影响了查询速度。　　本文围绕SLCA展开，本文在已有经典算法基础上对已有算法做出了改进，本文的主要贡献为：　　 1、分析SLCA现有成熟的求解算法上的缺点并提出新的改进算法，针对LISAⅡ算法使用前序编码的扩展Dewey码，该编码具有许多冗余信息，浪费了存储空间的缺点。本文提出了一种新的基于层次编码的SLCA求解算法UBS，该算法的空间复杂度明显降低，在理论求解时间和LISAII基本相同的情况下，使用了更少的存储空间　　 2、针对XML关键字检索的查询准确率问题，分析SLCA优缺点，在此基础上提出了有效公共祖先，也就是ESLCA的定义，该定义从元素标签内容和结构相似性等价两个方面着手判定XML关键字查询中可能存在的无效结果，并针对ESLCA在查询结果存在但返回结果为空的情况定义了XML关键字查询的结果集。最后本文通过EV-Index提出基于等价模式值索引的查询算法BVA,实验表明BVA在查询效率和查询质量上有较大的提高。

其他文献

流处理器相变存储器主存的性能优化

单芯片多处理器的发展和应用不断增加的性能和精度要求,需要计算机的主存系统增加容量以保存更大的工作集。DRAM是过去的几十年里计算机主存系统采用的主流技术。但DRAM的工

学位

相变存储器流处理器避免冗余位写非易失性访存调度算法

免疫克隆选择算法研究及其应用

人工免疫系统是模拟生物免疫系统的高性能、自组织、强鲁棒性的人工智能系统。本文主要在深入探索和研究了生物免疫系统中蕴含的智能学习机制。提出了一种高效的免疫优势克隆

学位

人工免疫系统克隆选择免疫优势旅行商蚁群算法自抗扰控制器

基于MDA的多维数据抽取过程的研究与实现

随着计算机技术的高速发展,管理信息系统(MIS)逐渐普及,各行各业都开始采用管理信息系统实现日常办公、人员信息管理等。传统的业务系统不具备数据分析的能力。它们常年运行

学位

模型驱动架构(MDA)多维数据抽取过程多维数据模型管道-过滤器模式任务调度

基于文本的互联网敏感视频分析方法研究

随着互联网技术的快速发展和三网融合的大力推进，互联网上的视频数量呈海量增长，对于视频内容的分析和监管也越来越重要。传统对于敏感视频的监管一般都是直接先下载后分析，这需

学位

网视频监控敏感视频文本预处理关键词提取反馈学习

特殊曲面间的位置研究与距离计算

特殊曲面是指那些具有一些特殊几何性质的曲面,如球面、椭球面、Bezier曲面、圆环面、管道曲面等。由于他们都具有一些特殊的性质,他们在计算机领域有着广泛的应用。因此研究

学位

管道曲面圆环面距离计算cone-sphereBernstein多项式包围盒距离区间反演变换一元四次方程

虚拟机集群负载均衡的研究

互联网时代的到来推动了网络计算模式的转变,从并行计算、分布式计算、网格计算发展到了云计算。面对云计算的到来,虚拟化技术似乎成为云计算的得力助手,使云计算具有了更高

学位

云计算虚拟机负载均衡集群

人工内分泌机制在传感器网络中的应用

基于生物体信息处理机制模型以及算法研究已成为人工智能领域的一个新的热点,它体现了现代科学研究中关于多学科、多领域间的交叉融合、互相促进以及相互渗透的特点。生物体

学位

人工内分泌系统无线传感器网络荷尔蒙激素

汉语语音验证码技术及应用

验证码技术是当今计算机安全领域与人机交互领域的前沿课题之一,在互联网领域有着广泛的应用。日常使用的验证码大部分是基于视觉图片验证码方式,给残疾人中的视力障碍者造成

学位

验证码汉语语音验证码信息无障碍残疾人

项目管理多资源优化方法研究

随着众多企业开始应用项目管理的方式管理企业中的各项活动,作为管理科学的一个分支,项目管理已经成为企业中不可或缺的一项内容。在具体的项目管理中,如何使资源在不同任务

学位

项目管理工期固定资源均衡资源有限工期最短遗传算法

基于危险理论的迁移实例代码安全主动保护机制研究

工作流管理是实现企业过程集成、提高企业运行效率和柔性的一种支撑技术,是计算机科学、管理科学、自动化科学等多学科领域关注与研究的热点问题之一。它根据一系列规则,文档

学位

代码主动安全危险感知危险响应时间核查

基于最紧致片段XML关键字检索研究

其他学术论文