论文部分内容阅读
互联网的高速发展带来了网络信息的爆炸式增长,网络用户对信息的需求也越来越高。作为Web信息的主要载体,HTML网页的结构越来越复杂,网页内容也越来越丰富。一个Web页面往往由多种元素组成,包括页面导航信息、广告、版权声明、主题正文等信息,这些信息都是以“块”的形式组织形成完整的HTML网页。用户在浏览网页时,更多人会关注网页的主题信息,我们称之为网页的主题块。对于那些与网页主题无关的广告链接、版权声明等信息,用户几乎不会关注。一个性能高效的信息抽取工具必须能够准确识别并抽取网页的主题块,这样才能更好的辅助用户或者是信息检索工具提高Web信息的处理能力。在对海量网页的内容和结构分析,以及对有关的Web信息抽取技术研究的基础上,本文采用了网页分块和信息熵计算相结合的方法,可以有效识别网页的主题块,并且准确抽取主题信息。主要过程如下:(1)网页属于半结构化的文档,为了提高抽取的效率,首先将从网络下载的网页数据进行HTML解析。通过解析,网页被表示成更加结构化的DOM树,通过调用DOM的访问接口,来处理网页中的有关信息。(2)主题无关节点过滤。根据HTML标签特点,初步过滤DOM树,删除网页中主题无关的节点,基本是图片<IMG>、脚本<SCRIPT>、网页应用程序<APPLET>等内容。(3)对网页进行内容块的分割,这是主题抽取的一个重要环节之一。依网页不同信息会分布在网页的不同区域上,对于这些区域上的数据,我们称之为“块”。按照HTML标签的布局特性,本文分别选用<TABLE><TR><TP><P>等分别作为结点,将网页分割成若干个内容块,一个父块可以包含若干个子块。(4)由于网页中存在大量的超链接,在DOM树中表现为文本节点,在对抽取主题前,依照索引块中超链接多标点少的特点,采用超链接文字和标点符号的比重作为度量,识别DOM树中的索引块并从树中删除。(5)对各内容块进行特征向量化,并根据各内容块中特征词的权值来计算各个块的信息熵,以及整个网页的总体熵值和每个内容块的熵平均值。一个内容块对网页整体熵值的贡献越大,该块越是与网页主题无关。我们逐个将各内容块的熵值与网页的熵平均值进行比较,识别网页中的主题块并抽取,作为主题信息最终输出。本文总共抓取了不同站点的近800个网页进行实验,其中各站点的信息抽取召回率基本保持在90%,基本满足了信息抽取的要求。结果表明,本文方法可以将网页中的广告、脚本、版权等主题无关信息删除,自动而准确地识别网页的主题块和非主题块,有效抽取网页的主题信息。作为网页信息抽取系统和信息检索的预处理环节,网页主题信息的准确抽取将在很大程度上降低抽取系统处理的复杂度,提高信息抽取和信息检索的准确率。