论文部分内容阅读
信息技术的出现和快速发展使得Web成为了人们发布和获取信息的主要平台和渠道。特别是Web2.0出现以来,诞生了各类互联网应用,Web页面急剧增长,海量的Web数据中包含了大量有价值的信息,许多基于Web信息的应用都急需直接从互联网上获取数据从而提供不同的增值服务,如Web舆情分析、比价系统、垂直搜索等应用。因此,Web信息抽取便成为了一个重要的研究领域。Web信息抽取的核心工具是抽取规则(也叫包装器),抽取规则的生成是每个Web信息抽取系统和工具必不可少的阶段,其面临的一个主要问题是如何同时保证抽取规则生成的自动化程度和抽取精度。由用户硬编码方式生成抽取规则在效率上无法满足海量数据抽取要求,而自动化的抽取规则生成技术又很难在抽取精度上达到要求。为此,本文研究了一种基于用户交互的半监督式Web信息抽取规则生成技术,结合用户标注和半自动化学习,生成较高精度的抽取规则。本文研究工作主要分为如下三个部分:(1)基于小样本半监督学习的网页数据抽取规则推导。对于非规则页面的数据抽取(Page-Level),一个页面仅含有一个数据记录,很难根据单个页面上的数据项特征生成稳定的抽取规则。因此需要提供标注的小样本页面集合,综合考虑数据项的上下文特征,针对相似数据项生成稳定的抽取规则。我们考虑了抽取数据项在DOM树上的结构特征、属性特征和内容特征,结合Apriori算法的思想,采用一种渐进式逐步求精的学习方法,对节点特征进行不断的测试与合并,直到找到满足条件的抽取规则为止。(2)基于用户交互的规则记录结构化抽取规则生成研究。根据DOM树结构和页面展示结构的对应关系,本文将规则记录抽取分为三类:基于行的记录抽取、基于列的记录抽取和基于网格的记录抽取。然后采用了一种分层的结构化抽取规则体系实现对规则记录的数据区、数据记录和数据项的封装。最后基于该规则体系设计了一种基于用户交互的抽取规则生成方法,由用户指导系统完成对各类数据源控件模式的学习。该方法采用可视化界面的方式,普通用户仅需要少量的操作就能够生成对应的抽取规则,从而在信息抽取的精度和自动化程度之间达到一个较好的平衡。(3)Web文本细粒度抽取规则的设计与实现。结构化抽取规则有时候仅能抽取到粗粒度的数据项,因此,本文设计了一种Web文本细粒度抽取规则来进行二次细粒度的数据项抽取,抽取规则中包含了Web文本的抽取范围和抽取模式,从而来达到精确的Web信息抽取。我们对每个部分的研究都进行了实验测试,结果表明,基于小样本半监督学习推导的数据项抽取规则泛化能力比较强,在相似页面的抽取中具有相当高的精度和召回率;而对于规则记录页面,用户通过少量的交互都能有效生成对应的结构化抽取规则并得到良好的抽取结果;Web文本细粒度抽取规则作为结构化抽取规则的补充,在细粒度数据项的精确抽取中也达到了满意的效果。