自底向上的Web数据抽取方法研究

来源 :东北大学 | 被引量 : 0次 | 上传用户:shushuclover1
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着科学技术的发展,各个领域的信息量均飞速增长,而作为新时代信息载体的互联网发展尤为显著。由于Web数据包含来自不同数据源的各个领域的信息,数据形式趋于多样化和复杂化,用户很难快速、准确地找到自己需要的信息。为了有效地利用和管理网络中的信息,必须获得网络数据源中的高质量结构化数据,因此,高效而准确的抽取Web数据并进行集成变得越来越重要。本文提出一个针对Web数据的自底向上的抽取方法。与其他抽取方法相比,该方法优先从数据属性标注着手,在此基础之上完成对结构化数据的构建与整合。我们称Web页面中的每个数据字段为一个实体,该方法主要分为两个部分:实体抽取和实体整合。这样可以避免数据抽取过分地依赖网页结构,扩展性更强,获取结构化数据的方式更加灵活。本文着重阐述对实体抽取策略及实体整合算法的研究,提出二级抽取模型TLE(Two-Level Extraction)、重复模式抽取算法FP(FindPattern)和模式化简算法RP(RefinePattern)。TLE是一种将查全规则和查准规则分开的实体属性标注模型,即分别依次应用两种类型的规则以保证实体属性标注有更高的查全率和准确率。FP算法是根据Web页面文本书写的相似性特征从实体属性序列中抽取重复模式的算法。RP算法是采用有限自动机思想化简重复模式的算法,以减小抽取时匹配模式的开销。此外,本文还就抽取后的Web页面信息的分层机制进行了深一步研究。经过实验验证,本文提出的自底向上数据抽取方法能够真正有效地抽取Web页面中的结构化信息,并且在查准率和召回率方面都要优于现有典型方法,具有更强的扩展性和普遍性,可以广泛地应用到众多主题的Web数据源信息集成中。
其他文献
随着网络技术的飞速发展,信息大量膨胀和聚集,互联网已经形成了一个由数据构成的巨大数据仓库,XML(eXtensible Markup Language)作为一种常用的数据交换和传输标准,蕴含了丰
移动Ad Hoc网络(MANETs)和点对点(P2P)网络都有共同特征:分布性和自组织性,通常被称为自治网络。资源共享下载服务是自治网络中主要的应用领域之一,节点进入网络后,相互共享并
验证是集成电路设计过程中不可或缺的重要环节。它是在流片前发现设计缺陷和错误的最后机会,对于整个项目的成败至关重要。传统的验证方法验证时间长、效率低,已经无法满足现
在分布式环境下的数据发布模式中,发布服务器并非完全可信,用户从发布服务器得到的数据有可能被篡改、伪造或丢失。若没有有效的安全措施,用户得到了错误的查询结果,往往会给
在网格环境中,资源提供者和用户具有不同的目标、策略,使得网格资源分配成为一个难点。如何合理分配网格资源,优化系统的整体效用,已成为一个重要的研究课题。传统的资源分配
微粒群优化算法(Particle Swarm Optimization, PSO)源自对鸟群觅食行为的研究,是一种基于群体智能的随机搜索算法。PSO算法概念简单、参数设置少、计算速度快、鲁棒性好,短短十
复杂网络的社团发现致力于揭示出复杂网络中真实存在的网络簇结构。服务网络是互联网上大量开放服务交互所构成的网络集合,服务通过业务需求的驱动自发组合以满足用户需求,在
伴随着九年义务教育制度的实施,一些发达地区进一步将高中教育也纳入到义务教育范围之内,从而推行了十二年义务教育。高校扩招,使得有更多的学生有机会进入大学学习,因此高中教育
在过去的几十年里,信息技术得到了迅猛发展,计算机系统的应用也越来越普及。随着人们对计算机系统要求的提高,系统变得越来越复杂,系统的管理和维护也变得越来越困难。为了减
随着当今互联网的发展,复杂网络的病毒传播相关研究已经成为了复杂网络的重要研究方向,在Email网络、社交网络等各种复杂网络中,规模庞大的网络环境和人的主观行为使病毒的传