论文部分内容阅读
随着Web2.0技术的出现以及快速发展,互联网中出现了越来越多的动态网页。Ajax技术实现了客户端与服务器之间的异步数据传输操作,不仅提高了用户的体验度,而且促进了动态网页的普及和互联网的发展。但是,这也使得依据HTML源码进行信息提取的传统网络爬虫无法提取到动态网页中的动态信息。因此,支持动态网页的信息提取的研究具有一定的实践意义。为此,本文提出了一种面向动态网页的定向信息提取模型。首先,分析了与动态网页定向信息提取相关的理论与技术,同时将研究对象Web页面分为静态网页和动态网页两类,并对其进行了详细的对比分析。在此基础上,分析了动态网页广泛采用的Ajax技术对信息提取带来的挑战。最后,对超文本标记语言、DOM模型和正则表达式在信息提取中的作用进行了详细介绍。其次,分析了传统网络爬虫爬取动态网页的缺陷和不足,提出了一种面向动态网页的定向信息提取模型。其工作流程为首先通过HTTP请求获取网页,然后采用HtmlUnit来解析与执行动态脚本,并模拟提交页面表单;最后,利用jsoup构建DOM树,从而提取页面信息和URL,并存储到数据库中。再次,结合所提出的面向动态网页的定向信息提取模型,给出了各个组成模块的具体实现方法:采用广度优先搜索策略爬取网站中的网页,使用布隆过滤器对URL链接进行去重处理,利用正则表达式和jsoup选择器提取网页信息和URL链接,并采用多线程爬虫技术来提高该模型的性能。最后,基于所提出的面向动态网页的信息提取模型,以燕山大学百度贴吧为爬取对象进行实验,并从模型的效率和性能两个方面进行实验设计。通过对爬取结果进行分析可知,所提出的模型在准确率、召回率和F值等评价指标下均有较好的结果,验证了所提模型的高效率和高性能。