【摘 要】
:
可扩展标记语言(XML, Extensible Markup Language)常被应用于简化数据的存储和共享,同时它也逐渐成为了一套规范的语义标签语言,使得人们在计算机中定义数据类型更加容易。
论文部分内容阅读
可扩展标记语言(XML, Extensible Markup Language)常被应用于简化数据的存储和共享,同时它也逐渐成为了一套规范的语义标签语言,使得人们在计算机中定义数据类型更加容易。如今网络应用发展迅速,XML也已经广泛地应用于Web Service(Web服务)、内容管理、Web集成、配置数据存储和电子商务等。因此如何从XML数据中提取用户所需要的信息,就成为了在XML关键字搜索领域研究的主要问题。在XML关键字搜索领域中,返回用户所期望查询结果的XML片段,称作最紧致片段,这种片段不仅满足用户的需求,也具有一定的语义信息。因此,最紧致片段的求解算法及其性能成为XML关键字搜索领域的重要问题之一。最小最低公共子树(SLCA)是目前公认的有意义的最紧致片段,SLCA返回带有所有关键字节点的最小子树。本文是在SLCA的理论基础上进行改进,将XML文档解析成树形结构,然后对每一个节点以Dewey编码的形式进行编码。之后基于Dewey编码对XML树进行前序遍历,并提出了前序遍历关键字集合算法(PHTKSA算法)来求解XML文档中最紧致片段SLCA。本文还研究了两类错误——丢弃错误和重复错误。针对丢弃问题构造了影响因子,根据影响因子来判断XML文档是否存在丢弃错误的可能,通过扩展关键字集合找到所有包含关键字的XML文档片段,以便发现符合用户所期望的最紧致片段。针对重复问题提出了节点标签及关键字集合的概念,用于找出关键字节点的标签和内容,利用裁剪算法,删除重复节点,获得精简的结果。实验证明,改进的基于Dewey编码求解SLCA的执行效率优于传统的SLCA求解算法,而对于丢弃和重复两类问题的处理获得了更高的准确率
其他文献
随着计算机技术和微电子技术的迅猛发展,使得Internet已经成为社会发展中最重要的基础设施之一。Internet的普及与发展使得物网时代已经走进了人们的日常生活,同时也为工业控制信息的共享提供了有力的网络保障。另一方面,国民经济的迅猛发展,电力网负荷急剧增大,感性无功也与日俱增。结合无功补偿与Internet信息共享,构建一个基于Web Server的静态无功补偿(SVC, Static Var
随着IP业务的迅速增长以及IP网络上应用的不断增加,原有的互联网越来越显得力不从心,互联网技术进入再设计阶段。现有互联网的可扩展性、安全性、可控可管及端到端问题等,都
大脑中的神经系统是人体中最复杂的系统之一,它承担着传导信息的功能。快速、准确、实时地对脑白质内神经纤维进行描绘,具有很大的意义,但是由于神经纤维结构的错综复杂,传统
基于FPGA的CPCI接口数据译码系统是作为一个通信接收系统的主要组成部分而进行研制的,主要是为了实现信号数据的译码、处理、采集、存储和管理工作。该系统以CPCI总线技术和
优化是人们在科学研究、工程技术和经济管理等诸多领域中经常碰到的问题。其目的是找到使目标函数达到最小或最大的条件。已有的许多优化方法在处理人们所面对的复杂问题时,
扩散曲线是一种图像矢量化的新方法,它可以保留传统位图在色彩上丰富的优点也具有矢量图方便修改,方便存储以及可以任意放大缩小而不失真的优点。是一个比较新颖而又具有实际
脑机接口是在人脑与外界环境之间建立不依赖于常规脊髓与外围神经的通讯系统,从而实现脑与外设的直接互联,这种新型的交互方式又可称为脑机交互。脑机交互研究具有复杂的交叉
搜索引擎技术和P2P技术是当前科研院所、公司争相研究的热点。随着Web信息的急速膨胀,各项与Web相关的服务也随之增多了。在这种情境下,搜索引擎作为个网络用户所需的信息检
随着网络上丰富且可用的评论资源不断增加,针对观点分析和观点挖掘的研究应运而生。它们针对这些来自网络上对产品或社会问题的公众评论的文本资源进行研究,并从中抽取和总结
无线传感器网络是一种新型的网络,它集成了传感器、嵌入式计算、网络和无线通信四大技术,它的节点可以相互协作地监测、感知和采集各种客观世界的信息,并对其进行处理,再传送