基于规则模板的Web信息抽取技术与实现

来源 :东北大学 | 被引量 : 0次 | 上传用户:caohf
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着Web的快速发展,丰富的Web资源构成了一个巨大的全球信息仓库。如何从Web网站中获得想要的信息成为亟待解决的问题,因此Web信息抽取成为必要,Web信息抽取技术也成为当今的一个研究热点。Web信息抽取需要解决的问题是:如何构建抽取规则使信息抽取免受页面结构差异和页面结构变化的影响,并尽可能地减少人为参与。 在对Web信息特点和Web信息抽取原理大量研究的基础上,本文提出了基于规则模板的Web信息抽取机制。在基于抽取规则模板的Web信息抽取中,重点考虑抽取规则模板的定义与构建:根据信息内容的特点定制抽取规则,根据页面的实际情况填充结构信息。信息抽取执行程序根据规则模板发现、抽取信息并将信息保存到关系型数据库中。 基于规则模板的Web信息抽取机制的目的是设计并实现一种准确、半自动、智能、高效、简单的Web页面抽取方法。本文提出一种基于规则模板的信息抽取机制;概述了基于规则模板的Web信息抽取机制的基本原理、实现过程;给出了规则模板的定义以及规则模板的组成结构。并通过分块算法对Html页面进行分块,对分块的结果进行层次划分,配合对页面源文件的分析,得到结构信息填充到规则模板。独立设计了信息抽取过程,该过程由样本学习、M-Spider、抽取执行程序三个部分组成,并以上市公司财务信息抽取为例,实现了基于规则模板的Web信息抽取机制的实际应用。
其他文献
随着GIS(Gerogaphic Information System地理信息系统)等应用的快速发展,空间数据库不光要能够提供高效的空间对象存储管理能力、良好的空间数据组织和约束能力、优化的空间
计算机动画技术在计算机图形学研究领域内占有重要的地位.计算机动画的研究对象包括现实生活或虚拟世界中可以随时间而运动的物体如云雾、河流、各种动植物等,其中最有难度和
随着Web上数据爆炸式的增长,这些海量数据的背后隐藏着许多重要信息经常未被充分地挖掘和利用,Web数据挖掘技术为解决这个问题带来了希望。然而传统Web数据挖掘系统存在效率低
数据集成平台在企业管理中应用越来越广泛。本文通过分析当前主流数据集成平台产品,认为目前国内外数据集成平台还具有很多不足之处。工作流技术应用于数据集成平台能够成功
随着时代数字化的发展,指纹识别技术的应用越来越广泛,指纹采集也越来越受到人们的重视。本论文设计了基于FPGA的指纹采集卡。硬件方面,对各芯片进行了选择,并画出了系统结构
网络监测对于网络管理者来说具有十分重要的意义,但是对网络性能参数的直接测量在一些情况下是不可行的。网络透视作为一种有效的解决方法被提了出来,它根据端到端的测量结果
随着网络的快速普及和应用的日益深入,各种增值业务在网络上得到了广泛部署,网络短时间的中断就可能造成重大损失。因此,网络的高可用性HA日益成为关注的焦点。 作为网络高可
当今社会,越来越多的企业认识到,只有靠充分利用、挖掘其现有数据,才能实现企业效益最大化。大多数企业并不缺乏数据,而是受阻于数据冗余和不一致。传统的数据库应用系统是面向业务操作设计的,简化了具体操作人员的劳动强度,而企业的中高层领导却没有相应的系统。企业需要新的技术来弥补原有数据系统的不足,需要把已经广泛收集到的数据集成到数据仓库中,以便从业务数据中提取有用的信息,帮助他们在业务管理和发展上做出及时
随着Web服务数量的急剧增多,用户面临大量的服务选择。因此如何从众多功能相似的Web服务中高效地发现满足条件的服务,如何判定服务组合的正确性等问题,已成为业界研究的热点
无线传感器网络由部署在监测区域内的大量传感器节点组成。传感器节点一般依靠电池供电,其电能有限,并且传感器节点一旦配置后,由于其工作环境等因素的限制就很难对电池进行