论文部分内容阅读
近年来Web发展迅速,将Web作为信息源的Web信息抽取也成为数据挖掘研究的一个重点。对Web信息抽取的研究已经取得了显著的成果,提出了各种各样Web信息抽取的方法,同时Web信息抽取技术的应用领域也十分广泛。本文主要将Web信息抽取技术应用在数字旅游网页上,抽取出用户所关心的信息。目前Web上的数据主要是用HTML语言描述的半结构化的数据,这些数据适合在浏览器上浏览,但是应用程序无法直接解析。本文通过对现有信息抽取技术的深入分析和研究,提出了一种基于DOM的Web信息抽取的方法。通过分析了基于绝对路径和相对路径抽取规则,发现仅仅使用路径这一特征作为抽取规则得到的结果并不是十分理想,由此提出了本文的特征比较法的信息抽取规则。本文最后设计并实现了一个基于DOM的Web信息抽取系统,该系统首先将HTML网页解析成XML DOM树,通过规则学习阶段完成抽取规则的生成,并将抽取规则存入规则库,最终获得抽取后的文档并存入关系数据库中。实验结果证明,本文提出的Web信息抽取的方法取得了较好的抽取结果,并且具有较高的查准率和召回率。