论文部分内容阅读
随着互联网的高速发展,传播信息的重要方法之一便是Web,如何准确快速地在庞大的互联网中获取信息,目前已经有很多的科研工作者将此作为研究方向。在这样的背景之下,便产生了Web信息抽取技术。Web信息抽取技术不仅能够从互联网上获得用户需要的信息,另外也能够将获得的信息作为创建数据挖掘系统和智能查询系统的基础。因此,信息抽取技术具有十分广阔的应用前景。信息抽取(IE)是指从一系列的文档中提取出特定的信息。当前大部分信息抽取工作是从半结构化文档XML或HTML中提取信息,目前现有的技术是基于字符串的提取方法,像有限自动机归纳方法。不过,这种方法并没有利用到XML文档的树形结构。在本文中,我们引入了树自动机技术,来代替字符串的提取方法。本文首先介绍了Web信息抽取的相关技术分类和评价指标,并分析了树自动机、文法推理及信息抽取技术。在有秩树自动机推理方面,本文在k-testable推理算法的基础上,提出了g-testable和gl-testable算法,提高了抽取的召回率和准确率,并基于此设计了一个基于有秩树自动机的Web信息抽取系统原型。最后,通过在基准数据集和大型数据上的实验表明,该方法确实要明显优于基于字符串的信息抽取方法。