正则表达式子类的推断算法研究

来源 :中国科学院大学 | 被引量 : 0次 | 上传用户：ztbai

【摘要】

：

XML是目前互联网中广泛使用的一种可扩展标记语言。XML模式在XML数据整合、验证等方面有着非常广泛的应用。然而，在现实应用中许多XML文档缺少对应的模式或给定的模式不满足规

【作者】

：

崔蕃琳

【机构】

：

中国科学院大学

【出处】

：

中国科学院大学

【发表日期】

：

2018年期

【关键词】

：

XML模式正则表达式推断算法描述性泛化

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

XML是目前互联网中广泛使用的一种可扩展标记语言。XML模式在XML数据整合、验证等方面有着非常广泛的应用。然而，在现实应用中许多XML文档缺少对应的模式或给定的模式不满足规范。因此，从XML文档中学习到一个合适的XML模式是一个很重要的课题。XML模式学习本质上可以归约到正则表达式的推断问题。本文基于对实际数据的统计分析，提出了一类比现有子类具有更高覆盖率的确定性受限正则表达式k-occurrence deterministic extended chain regular expression(k-Dechare)。并给出一个推断算法k-Dechare-infer，从理论上证明对于给定的句子集合S，该算法可以推断出一个描述性泛化的k-Dechare。　　k-Dechare-infer算法首先构造句子集合对应的一个确定性k-OA。其次对k-OA中带自环的节点、非平凡强连通分量和回形结构节点进行处理。接着计算k-OA中每个节点相应的级数以及找到所有的跳级，最后将每一个级数下面的所有节点转化为一个或者多个链式因子，由此得到句子集合对应的k-Dechare。　　最后，本文基于Python语言实现了k-Dechare-infer算法，并与同k-Dechare具有相似结构的子类的推断算法Soa2Chare、GenEchare以及XML工具IntelliJ IDEA、Altova XMLSpy和Trang的推断结果进行了对比。实验结果表明，在相同的句子集上，本文提出的k-Dechare-infer算法的推断结果更接近现实样本中的数据出现形式，比前述算法更精确。

其他文献

面向商务的IT服务管理任务调度算法

随着信息技术的发展,企业对IT服务的依赖日趋增强。在这种趋势下,英国政府在20世纪80年代末制订了ITIL标准。ITIL为企业的IT服务管理实践提供了一个客观、严谨、可量化的标准

学位

任务调度BDIM变更活动支持小组变更执行人员

基于SAP的电力企业营销管理系统的设计与实现

近年来，国内电力企业纷纷对信息化管理系统进行了整合。在整合重塑的过程中，一个显著的特点是以国际套装软件代替了定制开发。套装软件进入中国市场较晚并且投资巨大，因此，国内的

学位

流程梳理数据清理电力企业营销管理系统套装软件定制开发

基于相似度与上下文偏好的RDF查询松驰方法研究

语义Web是对下一代Web形态的新设想，作为当前互联网的延伸，语义Web的目标是使网络应用更加智能化和自动化，能够让机器“理解”Web上的信息，从而更加高效地检索信息。作为语义Web

学位

相似度上下文偏好RDF查询松驰语义检索

基于规则引擎的网管日志分析系统设计与实现

随着数据采集和存储技术的快速发展,网管系统领域逐渐的积累了大量的日志数据,直接影响了网络管理效率和系统稳定性。实现日志的相关性分析成为了网管系统的一个重要和基本要

学位

日志规则引擎Rete算法相关性分析网管系统

面秘电子病历应用的认证和授权服务的设计与实现

在网络开放和面向服务计算的发展趋势下,本文提出了面向分布式电子病历应用的认证和授权服务,使用户能够在不同的电子病历应用之间共享登录状态,通过通用的授权服务使分布式

学位

认证服务授权服务单点登录身份联合可扩展访问控制标记语言

BPEL过程实例迁移技术研究

面向服务的计算成为Internet开放环境下构建应用和解决方案的一种重要计算范型。在面向服务的计算环境下，分布在Internet上的各类资源都可以封装成Web服务的形式，并以统一的接

学位

BPEL标准过程实例迁移Web服务组合引擎系统体系框架

基于可变指令的Java软件版权保护系统研究

Java作为一种主流的编程语言,应用框架丰富,开发速度快,且具有平台无关性。鉴于Java语言的优秀特性,许多平台采用Java语言作为首选的应用开发语言。字节码文件作为Java代码编

学位

字节码文件软件版权类加载器可变指令

基于CUDA架构的三维地震数据并行处理技术研究

三维地震数据处理涉及地质数据、信息的分析与合成，广泛应用于地质勘探、油藏工程、GIS等领域，具有重要的理论研究意义和实际应用价值。三维地质曲面自动追踪通过对三维地震数

学位

三维地震数据统一计算设备架构并行处理技术去噪算法

基于改进蚁群算法的物流路径优化问题研究

物流路径优化是物流调度的重要部分,直接影响着物流的成本和效率。根据官方数据,我国物流运输成本占据了物流总成本的一半以上,远远高于发达国家。提高运输效率、优化物流配

学位

物流路径优化蚁群算法MDVRP单向物流路径双向物流路径

电信业务领域本体知识库的进化研究——及语义推理服务的设计与实现

随着互联网和电信网构成的融合网络平台的应用与发展,在开放的融合网络环境下,利用智能代理聚合各平台的服务实现各种资源的有效利用和服务的智能化调用已经成为共识。电信网

学位

领域本体进化TSDO语义推理SIMS

正则表达式子类的推断算法研究

与本文相关的学术论文