论文部分内容阅读
近年来,因特网上的信息资源以爆炸式的速度在不断增长。面对如此巨大的互联网信息库,如何快速、有效、经济地得到某个主题的所有相关信息就成了当前一个十分热门的研究课题。由于CSS+DIV布局方式逐渐成为网页结构布局的主流,对此类网页进行高效的主题信息抽取已越来越受到人们的重视。针对CSS+DIV布局的新闻网页,本文提出了一种新的基于DIV标签树的网页主题信息抽取方法,主要包括以下三个过程:HTML解析过程:通过读取网页源代码获取HTML文档,从文档中抽取每一个DIV标签对,DIV标签对可以嵌套,每一个DIV标签对对应着一棵DIV标签树,因此将嵌套的DIV标签树抽取出来作为被嵌套的DIV标签树的子树,从而将HTML文档转换成DIV森林。噪声过滤过程:过滤掉DIV标签树中不包含主题信息的噪声结点。剪枝过程:首先建立STU-DIV模型树,然后通过主题相关度分析,判定并剪掉与主题信息无关的DIV标签树。基于本文所提出的网页主题信息抽取方法,本文设计并实现了一个新闻网页主题信息抽取系统原型。通过对多个新闻网站的网页进行主题信息抽取实验,结果表明本文所提抽取方法具有较好的正确性和完整性,获得了较好的新闻主题信息抽取效果。