基于用户交互的半监督式Web信息抽取规则生成技术研究

来源 :南京大学 | 被引量 : 0次 | 上传用户：dengdq123

【摘要】

：

信息技术的出现和快速发展使得Web成为了人们发布和获取信息的主要平台和渠道。特别是Web2.0出现以来,诞生了各类互联网应用,Web页面急剧增长,海量的Web数据中包含了大量有价

【作者】

：

罗镭

【机构】

：

南京大学

【出处】

：

南京大学

【发表日期】

：

2014年期

【关键词】

：

精确Web信息抽取抽取规则推导 XPath规则半监督式学习 Web文本规则

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

信息技术的出现和快速发展使得Web成为了人们发布和获取信息的主要平台和渠道。特别是Web2.0出现以来,诞生了各类互联网应用,Web页面急剧增长,海量的Web数据中包含了大量有价值的信息,许多基于Web信息的应用都急需直接从互联网上获取数据从而提供不同的增值服务,如Web舆情分析、比价系统、垂直搜索等应用。因此,Web信息抽取便成为了一个重要的研究领域。Web信息抽取的核心工具是抽取规则(也叫包装器),抽取规则的生成是每个Web信息抽取系统和工具必不可少的阶段,其面临的一个主要问题是如何同时保证抽取规则生成的自动化程度和抽取精度。由用户硬编码方式生成抽取规则在效率上无法满足海量数据抽取要求,而自动化的抽取规则生成技术又很难在抽取精度上达到要求。为此,本文研究了一种基于用户交互的半监督式Web信息抽取规则生成技术,结合用户标注和半自动化学习,生成较高精度的抽取规则。本文研究工作主要分为如下三个部分：(1)基于小样本半监督学习的网页数据抽取规则推导。对于非规则页面的数据抽取(Page-Level),一个页面仅含有一个数据记录,很难根据单个页面上的数据项特征生成稳定的抽取规则。因此需要提供标注的小样本页面集合,综合考虑数据项的上下文特征,针对相似数据项生成稳定的抽取规则。我们考虑了抽取数据项在DOM树上的结构特征、属性特征和内容特征,结合Apriori算法的思想,采用一种渐进式逐步求精的学习方法,对节点特征进行不断的测试与合并,直到找到满足条件的抽取规则为止。(2)基于用户交互的规则记录结构化抽取规则生成研究。根据DOM树结构和页面展示结构的对应关系,本文将规则记录抽取分为三类：基于行的记录抽取、基于列的记录抽取和基于网格的记录抽取。然后采用了一种分层的结构化抽取规则体系实现对规则记录的数据区、数据记录和数据项的封装。最后基于该规则体系设计了一种基于用户交互的抽取规则生成方法,由用户指导系统完成对各类数据源控件模式的学习。该方法采用可视化界面的方式,普通用户仅需要少量的操作就能够生成对应的抽取规则,从而在信息抽取的精度和自动化程度之间达到一个较好的平衡。(3)Web文本细粒度抽取规则的设计与实现。结构化抽取规则有时候仅能抽取到粗粒度的数据项,因此,本文设计了一种Web文本细粒度抽取规则来进行二次细粒度的数据项抽取,抽取规则中包含了Web文本的抽取范围和抽取模式,从而来达到精确的Web信息抽取。我们对每个部分的研究都进行了实验测试,结果表明,基于小样本半监督学习推导的数据项抽取规则泛化能力比较强,在相似页面的抽取中具有相当高的精度和召回率；而对于规则记录页面,用户通过少量的交互都能有效生成对应的结构化抽取规则并得到良好的抽取结果；Web文本细粒度抽取规则作为结构化抽取规则的补充,在细粒度数据项的精确抽取中也达到了满意的效果。

其他文献

出版业ERP系统建设的研究

近年来，ERP（企业资源规划）已经成为一个既时髦又严肃的名词，许多企业特别是制造业在各大传媒或ERP软件经销商的宣传和鼓动下，开始对ERP翘首以盼或已开始着力构造属于自己的ERP系统

学位

出版业企业资源规划系统职能部门业务流程

基于TCAM的快速数据包分类技术

在社会信息化高度发展的今天,Internet的网络流量特别是核心网络的流量以指数级增长,同时用户数量和对服务的要求也迅速增加,这一切都对作为Internet核心设备的主干路由器提

学位

包分类TCAM分类器网络流量

财政转移支付测算方法研究及实现

财政转移支付是实现国家宏观调控，保障不同区域内政府施政能力和居民生活水平基本平衡的政府间财力调配的一种形式，是政府间财政关系的支柱之一。实现财政转移支付的关键在于解

学位

财政转移支付神经网络粗集理论约简

基于指纹识别技术的安全强认证系统研究与实现

该课题出教育部立项,课题名称:"教育信息资源保障用户身份强认证系统研究",目标是设计并实现基于指纹识别技术的身份认证系统,包括网络平台的认证系统及离线方式的认证系统,

学位

生物特征指纹识别细节提取指纹比对智能卡ASP线程

基于B/S模式的保密网系统安全设计

本文论述了Web的发展及其Browser/Server模式概念，以及基于Web的网络安全的内容与机制；阐述了密码学的基本概念、分类，对称密钥密码体制DES与AES以及公开密钥密码体制RSA；最后，利

学位

保密网DESAESRSA数字签名

基于面向对象Petri网的并发软件开发方法研究

该文研究基于面向对象Petri网的并发软件开发方法,其目的是为解决上述问题提供一种有效的解决方法和支持工具。该研究以PC机为硬件平台,针对多处理机系统、网络系统以及高性

学位

软件开发高级Petri网建模并发软件开发工具并发系统设计多处理机系统操作系统面向对象技术

数码喷射印花机的色彩管理

该论文以数码喷射印花机的RIP软件系统为应用背景,深入研究色彩管理原理和实现方法,将ICC色彩管理技术应用到数码喷射印花机的输出中.论文首先从色度学的角度介绍了色觉形成

学位

色彩管理色度学数码喷射印花机色彩配置文件灰色替代

PDM中产品结构管理的研究与应用

PDM是继CAD之后，国家在制造业企业重点推广的一项新技术。它是管理所有与产品相关信息和所有与产品相关过程的技术，是现代化先进制造技术的重要组成部分。企业推广PDM技术，需要

学位

PDMPCM产品结构管理ERPBOM计算机辅助设计XML文档

基于程序数据值的恶意软件变种识别研究与实现

通过互联网,恶意软件迅速传播,数量急剧增加,新出现的恶意软件大多是以前出现过的恶意软件的变种,恶意软件的变种识别成为了识别恶意软件、保护计算机系统安全等相关工作的重

学位

恶意软件变种动态分析数据值分类

基于问题的软件过程建模、实施和改进

该文首先探讨了软件过程的背景及其发展和现状.接着对软件过程建模进行深入研究,在此基础上,提出并设计了基于Petri网的可视化过程建模语言PBVPML(Petri-Based Visual Proces

学位

软件过程软件过程建模语言问题跟踪软件工程环境

基于用户交互的半监督式Web信息抽取规则生成技术研究

其他学术论文