论文部分内容阅读
随着互联网的发展与普及,越来越多的人依赖于从网络上获取信息,但是为了维护商业利益和推广的需要,网络上充斥着大量的噪音信息,严重干扰了人们对信息的获取,基于此本文提出了一种基于DOM (Document Object Model)树的网页信息提取方法。通过对常用的网页去噪和信息提取方法进行分析发现,某些基于DOM实现的网页提取方法并不能判断不含有超级链接的网页噪音,而且不能处理正文分布在DIV标签中的情况,去噪效果不理想。本文从以下几个方面解决了上述问题:1.利用VIPS (Vision Based Page Segmentation)实现网页内容分块,有效的划分开了与网页主题相关的信息块和噪音信息块。2.将所划分得到的块转化为DOM树形结构。用VIPS方法划分出来的每个内容块都是一个树形结构,将网页进行了更加细粒度的划分。3.用递归方法对DOM树中存在于标签中的节点信息进行提取,有效的解决了主题信息存在于TABLE和DIV标签中的问题。根据网页标题与结点中词共现频率以及文本间的相似度实现网页正文内容的提取。在计算网页标题与结点词共现频率时,将标题中的词赋予较大的权重,文本中的节点词赋予较小的权重,有效提高了信息提取的准确性。最后,本文利用JTidy和爬虫的有关知识对系统进行了简单的实现,根据待爬行URL与主题的相关度,把满足条件的URL加入到待提取队列,并且根据正在爬行的网页正文内容与新闻类别主题的相似度,下载满足条件的网页,提取到相关新闻网页上新闻的标题、内容、时间等有关信息并保存到数据库中。经过对网页信息进行提取测试,表明了算法的有效性。