精确Web信息抽取关键技术与系统研究

来源 :南京大学 | 被引量 : 0次 | 上传用户:CT19850329
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网技术的发展,Web成为全球企业与机构进行信息发布与应用部署的主要平台。大量Web网站和Web应用的出现使得Web上的数据量急剧增长。Web上的海量数据蕴含很多有价值的信息。为了获得并分析利用这些有价值的信息,通常首先需要从Web上获取精确有用的结构化数据,然后对这些结构化数据执行深度分析处理。然而,Web系统的广泛分布性和自治性、Web数据的异构性和非结构化特性、以及Web数据的展现结构与目标数据结构的不一致性,使得从Web中有效地获取精确有用的结构化数据成为一个较大的技术难题。Web信息抽取正是为解决这一问题而产生的研究领域。Web信息抽取研究如何从展现结构的Web页面抽取出用户感兴趣的数据,并将其转换成结构化数据。一个完整的Web信息抽取过程可以被分为三个阶段:网页浏览导航、网页数据抽取、以及网页数据集成。然而,现有大部分研究工作主要关注网页数据抽取,忽略了网页浏览导航与网页数据集成,导致缺少完整的Web信息抽取处理能力和过程。与此同时,大多数现有工作过于强调理论意义上的全自动化分析抽取处理。相应的方法主要有两种:自动网页数据抽取方法;开放式异构网页数据抽取方法。前者不考虑用户需求,会抽取出很多用户不感兴趣的冗余数据;这导致分析应用需要对数据进行转换、清洗、过滤等二次处理。后者不使用任何特定于网页的抽取规则模板,试图从描述相同实体的异构网页抽取出用户感兴趣的数据;这导致后者的数据抽取精确度通常较低。针对现有工作的上述不足,本文力图综合自动化方法以及精确Web信息抽取的实际应用需求。面向完整Web信息抽取过程,本文研究精确Web信息抽取基本模型、语言、以及关键技术方法,并给出相应的原型系统的设计与实现。具体而言,本文主要研究工作和创新点如下:(1)三阶段一体化精确Web信息抽取基本模型研究首先,研究并提出完整的三阶段一体化精确Web信息抽取模型。然后,分别针对三个阶段研究并提出网页浏览导航模型、网页数据抽取模型、以及网页数据集成模型。网页浏览导航模型通过构建交互和浏览导航动作模型、网页浏览导航路径模型、以及网页链接关系模型,以分别描述用户交互动作、网页浏览导航过程、以及网页链接关系。网页数据抽取模型通过构建网页数据抽取基本模型、网页数据记录模型、以及数据记录和数据项抽取规则模型,以分别描述网页数据抽取过程、网页数据记录结构形式、以及数据记录和数据项抽取规则框架。网页数据集成模型描述了将源网页数据转换成目标结构数据的基本过程。(2)三阶段一体化精确Web信息抽取规则体系与语言研究基于三阶段一体化精确Web信息抽取基本模型,研究并设计一种三阶段一体化的精确Web信息抽取规则体系与语言。与精确Web信息抽取过程的三阶段相对应,该规则体系与语言包含三个部分:网页浏览导航规则语言、网页数据抽取规则语言、以及网页数据集成规则语言。与现有的Web信息抽取规则语言相比,该语言的主要优点包括:1)网页浏览导航规则语言可以定义各种复杂网页浏览导航过程的网页浏览导航规则;2)网页数据抽取规则语言可以定义各种复杂结构数据记录抽取规则;3)网页数据集成规则语言可以方便灵活地定义网页数据集成规则。(3)自动网页数据抽取研究现有自动网页数据抽取方法主要适用于抽取简单结构数据记录(连续-定长-线性数据记录),而难以有效抽取复杂结构数据记录(非连续、变长、或嵌套数据记录)。针对这一不足,研究并提出两种自动网页数据抽取方法:基于内聚度和DAG(有向无环图)的自动网页数据抽取方法,以及基于确定性有穷自动机的自动网页数据抽取方法。前者适用于抽取连续-定长(变长)-线性数据记录,而后者可以抽取各种简单或复杂结构数据记录。(4)精确Web信息抽取规则生成研究为了便于用户高效生成鲁棒的精确Web信息抽取规则,研究并提出一种基于用户交互、自动网页结构分析和监督式规则学习的精确Web信息抽取规则生成方法。在网页浏览导航规则生成上,将通过自动录制用户交互和浏览导航动作来生成相应规则。在网页数据抽取规则生成上,对于包含规整数据记录的页面,将采用上述自动网页数据抽取方法分析网页结构,继而基于监督式规则学习来自动生成相应规则;对于包含非规整数据记录的网页,将基于用户交互和监督式规则学习来生成相应规则。在网页数据集成规则生成上,将采用简单的脚本语言编码方式来生成相应规则。(5)精确Web信息抽取原型系统的设计与实现为了验证所提出的模型、规则语言和关键技术方法的有效性,本文设计并实现一个精确Web信息抽取原型系统。实验结果表明,本文所研究提出的精确Web信息抽取模型与关键技术方法是有效的,比现有的技术方法取得更好的抽取精确性、并具有更强的处理能力。
其他文献
因特网在经历了几十年的辉煌之后遇到了发展瓶颈。随着大量协议及应用的加入,网络设备的功能越来越复杂,软件越来越庞大,再加上软硬件高度耦合且封闭的设备架构,网络创新变得
面对市场经济新形势的严峻挑战 ,如何寻找一条适合本校实际情况的发展道路 ,建立一条高效率的运转机制以促进学校发展已成为一个不容忽视的问题。本文就机制运转的内部协调性
目的比较研究口腔炎喷雾剂与康复新口服液治疗口腔溃疡的效果。方法选取我院110例(2015年4月17日到2017年4月17日)口腔溃疡患者为本次的研究对象,采用随机分组原则将其分为对
挡土墙是用于阻止土壤变形、坍塌的一种建筑物,在岩土工程中被广泛应用。水工挡土墙是在有水工况下的一种特殊形态的挡土墙结构,在设计原理上与普通挡土墙一致。这类水工挡土
针对当前电子商务环境中信任关系难以建立、计算的信任值不准确、对影响信任的多种因素进行科学合理的权重分配以及电子商务交易环境(互联网)和工具(软件)的安全可靠性问题等
近年来,P2P网络因具有自组织和分布式的特性,以及能够充分利用Internet中的大量计算能力和共享资源而得到快速发展。基于簇结构的P2P网络针对不同节点的行为特点和计算能力等
随着"互联网+"行动计划的推进,各行各业的信息化程度越来越高,这些互联网平台都成为感知用户行为的"社会传感器"。综合各个"社会传感器"感知的用户行为,可以分析和预测用户行
随着社交媒体和移动互联网的迅速发展,以微博为代表的短文本信息流的处理技术变得越来越重要。面对海量微博和众多用户多样性的信息需求,微博检索和微博过滤已经成为微博服务
服务需求与网络资源间的匹配是互联网发展各个阶段都在努力追求的目标。传统互联网架构在资源适配问题上存在局限性。在传统网络基础上的改进方案效果依然不甚理想。近些年,
"互联网+"时代电子商务在农村地区的推广,有利于进一步打破城乡二元结构、激活城市与农村市场双向流动。新兴跨境电子商务平台的出现,为农村青年创业提供机会和空间,依托B2B