论文部分内容阅读
当前,World Wide Web已经成为世界上最大的、类型最齐全的共享信息的载体。在互联网为用户提供丰富、快捷的信息的同时,也造成了信息过载的问题。World WideWeb中的网页信息量的指数速度增长给Web信息提取和搜索引擎等应用带来了巨大的压力。互联网中的信息变化频繁,为了实时地获取这些信息,需要对这些的变化进行检测,并且随着互联网信息以指数级形式增长,需要检测的数据的规模也随之增加,这对网页变化检测算法的效率提出了更高的要求。对Web信息变化检测技术的研究具有重要意义。本文使用基于文档结构树比较法作为网页变化检测的核心技术,设计并实现了一个基于DOM结构的Web信息内容变化检测方案。整个方案由检测信息定制、网页变化检测和网页变化可视化三个部分构成。其中本文的关键部分—网页变化检测又包括Web页面预处理、Web页面正文定位、Web页面编码和网页变化比较四个部分。检测信息定制部分是对需要检测的网页进行设置;Web页面预处理过程中采用开源工具HtmlCleaner对网页进行清洗,并将HTML文档转化为DOM树;Web页面正文定位部分则采用基于文本密度的正文提取方法定位网页的正文:为了减少网页的存储空间和加快后续的处理速度,Web页面编码部分则采用网页摘要算法对DOM对象进行编码,并将编码所得的数组对象和数组列表对象存储于数据库中,作为网页变化检测部分的历史数据,同时根据可视化显示历史网页的需要,该部分还包含了将PDE集合信息转化为HTML源文档的功能;网页变化检测部分使用基于历史窗口数据预估网页的变化频率,并对同一个Web页面的两个版本的PDE信息集合进行比较以判断网页是否变化,当网页发生变化时候,更新数据库中的PDE集合和网页的最新修改时间;网页变化可视化部分可视化网页的变化结果。最后,本文开发了一个Web信息内容变化检测系统,系统能够检测网页中的变化信息,并把网页的变化可视化,实验表明本文所提出的Web信息内容变化检测方案具有一定的实用价值。