正则表达式子类的推断算法研究

来源 :中国科学院大学 | 被引量 : 0次 | 上传用户:ztbai
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
XML是目前互联网中广泛使用的一种可扩展标记语言。XML模式在XML数据整合、验证等方面有着非常广泛的应用。然而,在现实应用中许多XML文档缺少对应的模式或给定的模式不满足规范。因此,从XML文档中学习到一个合适的XML模式是一个很重要的课题。XML模式学习本质上可以归约到正则表达式的推断问题。本文基于对实际数据的统计分析,提出了一类比现有子类具有更高覆盖率的确定性受限正则表达式k-occurrence deterministic extended chain regular expression(k-Dechare)。并给出一个推断算法k-Dechare-infer,从理论上证明对于给定的句子集合S,该算法可以推断出一个描述性泛化的k-Dechare。  k-Dechare-infer算法首先构造句子集合对应的一个确定性k-OA。其次对k-OA中带自环的节点、非平凡强连通分量和回形结构节点进行处理。接着计算k-OA中每个节点相应的级数以及找到所有的跳级,最后将每一个级数下面的所有节点转化为一个或者多个链式因子,由此得到句子集合对应的k-Dechare。  最后,本文基于Python语言实现了k-Dechare-infer算法,并与同k-Dechare具有相似结构的子类的推断算法Soa2Chare、GenEchare以及XML工具IntelliJ IDEA、Altova XMLSpy和Trang的推断结果进行了对比。实验结果表明,在相同的句子集上,本文提出的k-Dechare-infer算法的推断结果更接近现实样本中的数据出现形式,比前述算法更精确。
其他文献
随着信息技术的发展,企业对IT服务的依赖日趋增强。在这种趋势下,英国政府在20世纪80年代末制订了ITIL标准。ITIL为企业的IT服务管理实践提供了一个客观、严谨、可量化的标准
近年来,国内电力企业纷纷对信息化管理系统进行了整合。在整合重塑的过程中,一个显著的特点是以国际套装软件代替了定制开发。套装软件进入中国市场较晚并且投资巨大,因此,国内的
语义Web是对下一代Web形态的新设想,作为当前互联网的延伸,语义Web的目标是使网络应用更加智能化和自动化,能够让机器“理解”Web上的信息,从而更加高效地检索信息。作为语义Web
随着数据采集和存储技术的快速发展,网管系统领域逐渐的积累了大量的日志数据,直接影响了网络管理效率和系统稳定性。实现日志的相关性分析成为了网管系统的一个重要和基本要
在网络开放和面向服务计算的发展趋势下,本文提出了面向分布式电子病历应用的认证和授权服务,使用户能够在不同的电子病历应用之间共享登录状态,通过通用的授权服务使分布式
面向服务的计算成为Internet开放环境下构建应用和解决方案的一种重要计算范型。在面向服务的计算环境下,分布在Internet上的各类资源都可以封装成Web服务的形式,并以统一的接
Java作为一种主流的编程语言,应用框架丰富,开发速度快,且具有平台无关性。鉴于Java语言的优秀特性,许多平台采用Java语言作为首选的应用开发语言。字节码文件作为Java代码编
三维地震数据处理涉及地质数据、信息的分析与合成,广泛应用于地质勘探、油藏工程、GIS等领域,具有重要的理论研究意义和实际应用价值。三维地质曲面自动追踪通过对三维地震数
物流路径优化是物流调度的重要部分,直接影响着物流的成本和效率。根据官方数据,我国物流运输成本占据了物流总成本的一半以上,远远高于发达国家。提高运输效率、优化物流配
随着互联网和电信网构成的融合网络平台的应用与发展,在开放的融合网络环境下,利用智能代理聚合各平台的服务实现各种资源的有效利用和服务的智能化调用已经成为共识。电信网