论文部分内容阅读
Internet的飞速发展,使网络成为人们发布、传输和获取信息的重要途径,为人们生活、工作提供了丰富的信息和资源。Web信息采集作为获取网络信息的重要方法,得到了迅速发展,被应用于多种服务和研究中。然而,由于Web信息资源的动态性,造成了已采集信息的失效,传统的更新采集方式需要很大时空开销。为了提高更新采集的效率,本文主要针对增量更新的Web信息采集进行了研究。
Web网页变化有两个属性:内容属性和时间属性。根据这两方面,本文研究了基于MD5算法和基于人工神经网络的增量更新策略。前者应用MD5算法对网页内容进行信息摘要生成MD5值,通过比较MD5值来判断网页变化与否,实现增量更新;后者通过人工神经网络对网页变化的时间间隔建立网络模型,采用BP算法来训练学习,得到一个预测模型,以此来预测出各网页的变化时间间隔,通过与实际采集的时间间隔相比较判断网页是否发生变化,实现增量更新。本文设计并实现了一个基于这两种增量更新策略相结合的Web信息采集系统:先通过比较时间间隔,判断发生变化的网页,再对这些网页内容进行信息摘要生成MD5值,与以前的相比较,验证网页是否确实发生了变化。对于变化的网页进行下载更新,没有变化的网页不予处理。
实验表明,基于人工神经网络和MD5相结合的增量更新策略在判断网页是否变化是有效的,网页变化时间间隔的人工神经网络预测模型能够在不下载网页内容的情况下,根据以前采集的历史记录预测出网页变化时间间隔,而MD5能够滤掉预测模型预测出的发生变化但实际没有发生变化的网页,从而减少系统对未变化网页的更新所花费的系统资源和处理时间。本文实现的基于人工神经网络和MD5相结合的增量更新的Web信息采集原型系统达到了预期的效果。