【摘 要】
:
互联网已经成为人们获取信息的重要来源,如何从互联网海量信息中快速、准确地获得所需要的信息,成为当前亟待解决的问题。然而传统的Web信息抽取方法依赖特定的模板,针对一个模
论文部分内容阅读
互联网已经成为人们获取信息的重要来源,如何从互联网海量信息中快速、准确地获得所需要的信息,成为当前亟待解决的问题。然而传统的Web信息抽取方法依赖特定的模板,针对一个模板构建的包装器不能抽取其他模板生成的网页,也不能适应原来的模板的变化。本文将Web信息抽取当作一个机器学习的问题,利用视觉和语义特征构建了一个领域级别的包装器。本文的主要工作包括以下内容:
(1)提出基于语义标注的DOM节点分割方法,解决了DOM节点粒度过大的问题。
(2)采用关键属性优先抽取的策略,先使用回归模型抽取关键属性,再使用分类模型抽取非关键属性,一方面解决了抽取结果可能包含多个关键属性的问题,另一方面利用关键属性与非关键属性之间的联系,提高了抽取的精度和召回率。
本文将上述方法应用于一个学术搜索与分析原型系统中。实验结果表明,本文提出的方法能有效提高Web信息抽取的精度和召回率,并且在领域内具有良好的泛化能力,具有一定的实用价值。
其他文献
颜色作为计算机视觉一个重要且有效的特征,已经被应用到计算机视觉的许多领域中。但是颜色特征很不鲁棒,容易受到场景光照的影响。颜色恒常性计算的目的就是要消除场景中光照
众多实际的问题可以抽象为图的模型,如网络拓扑、社交网络、网页超链接等。针对这些应用需求,业界和学术界开发了很多基于图的算法、计算框架、开源软件、函数库,这在一段时间内
一个自主的数据库管理系统是指该系统能进行自我调整,自我优化,自我修复,自我保护的数据库管理系统(DBMS)。由于专家型的数据库管理员是非常紧缺的,所以需要引入一个能进行自
腹部CT图像是进行肝脏肿瘤检查最常见的成像技术。作为一种计算机辅助技术,它有助于医生获得肿瘤的大小、多少、位置等信息。基于腹部CT图像的肝脏肿瘤分割,主要是指将肝脏肿
语义物联网环境下的前端传感器设备具有感知和标识能力,其数据特点是庞杂繁多且较为分散,受限于前端感知设备储存和处理数据的能力,需要依赖云计算技术强劲的运算能力以降低
在工业检测流水中应用机器视觉系统,对样本进行检测,以提高制造业、印刷业等工厂的机械自动化能力,提升工业生产效率,已经成为生产中的迫切需求。本文提出了一种高速特征检测
事务内存做为一种在并行程序设计中对共享数据的访问控制机制,在最近几年得到了广泛的研究,其提供的简易的编程模型能有效地简化并行编程模型。当事务内存这种先进的并发控制机
互联网的快速发展导致了互联网上的信息量与日俱增。如何从互联网上获取用户所需要的信息已经成为了一个热门问题。在这个背景下,信息检索技术发展起来了。针对信息检索中,文档
随着数据规模不断增加和处理难度增大,大数据(Big Data)变得非常重要。存储系统对图像文件等非结构化的大数据查询服务缺乏有力支持,传统的文件元数据信息没有表达图像文件内容,区
在移动对象数据挖掘领域,移动对象异常检测是一个十分值得研究的方向。本文针对移动对象异常轨迹检测的发展状况,全面总结了该领域中的各种方法,对各种方法的不足进行阐述,从