面向动态网页的定向信息提取模型的设计与实现

来源 :燕山大学 | 被引量 : 0次 | 上传用户:zhangzjc1234
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着Web2.0技术的出现以及快速发展,互联网中出现了越来越多的动态网页。Ajax技术实现了客户端与服务器之间的异步数据传输操作,不仅提高了用户的体验度,而且促进了动态网页的普及和互联网的发展。但是,这也使得依据HTML源码进行信息提取的传统网络爬虫无法提取到动态网页中的动态信息。因此,支持动态网页的信息提取的研究具有一定的实践意义。为此,本文提出了一种面向动态网页的定向信息提取模型。首先,分析了与动态网页定向信息提取相关的理论与技术,同时将研究对象Web页面分为静态网页和动态网页两类,并对其进行了详细的对比分析。在此基础上,分析了动态网页广泛采用的Ajax技术对信息提取带来的挑战。最后,对超文本标记语言、DOM模型和正则表达式在信息提取中的作用进行了详细介绍。其次,分析了传统网络爬虫爬取动态网页的缺陷和不足,提出了一种面向动态网页的定向信息提取模型。其工作流程为首先通过HTTP请求获取网页,然后采用HtmlUnit来解析与执行动态脚本,并模拟提交页面表单;最后,利用jsoup构建DOM树,从而提取页面信息和URL,并存储到数据库中。再次,结合所提出的面向动态网页的定向信息提取模型,给出了各个组成模块的具体实现方法:采用广度优先搜索策略爬取网站中的网页,使用布隆过滤器对URL链接进行去重处理,利用正则表达式和jsoup选择器提取网页信息和URL链接,并采用多线程爬虫技术来提高该模型的性能。最后,基于所提出的面向动态网页的信息提取模型,以燕山大学百度贴吧为爬取对象进行实验,并从模型的效率和性能两个方面进行实验设计。通过对爬取结果进行分析可知,所提出的模型在准确率、召回率和F值等评价指标下均有较好的结果,验证了所提模型的高效率和高性能。
其他文献
目的了解社区老年人轻微认知功能损害患病率及影响因素,为社区干预提供依据。方法单纯随机抽样,使用MMSE、ADL量表及自设问卷,对925位城市老年人进行面对面的访谈调查,数据经
<正>党的全面领导思想,是新时代中国领导科学研究的重大课题,对于提升全党在新时代的执政本领和领导力,具有重大的价值和意义。那么,应该如何坚持和加强党的全面领导呢?一、
"中国之治"得益于中国制度科学管用,具有合实际、合规律、合目的的制度逻辑。合实际,是指中国制度符合中国历史实际、国情实际和时代实际;合规律,是指中国制度符合经济社会发
介绍了该规程的编制背景和原则。重点介绍了编制过程中探讨的几个重要问题,包括:地热井持续开采年限的限定、回灌要求、地热利用率及尾水排放温度的规定、地热直接供热系统的
爱伦·坡的作品一直被众人津津乐道,究其原因不外乎是他在作品中所构建出的匪夷所思、离奇反常的情节,除此之外,哥特式风格也成为他恐怖小说的一大亮点。
<正> 现代科技的日新月异,大大加快了出版业创新的步伐。随着电子技术和网络技术向出版领域的全面渗透,出版物的概念已经远远超出我们以前所理解的范畴,图书出版将进人多媒体
近年来,云计算在IT行业掀起了新一轮技术革新浪潮。云计算是一种新兴的计算模型,它是并行计算、分布式计算、网格计算的综合发展,以简单、透明服务的形式提供无限制的计算资
沧州市国家档案馆珍藏着一部清代著名学者、一代文宗纪晓岚所著的随笔体杂记小说《阅微草堂笔记》。该书为十六开本线装,一套共十本。全书以工笔小楷写,每段话后面都有注解,
20世纪90年代后期以来,中国的经济伦理状况在总体上已有一定改善,但存在的一些严重不道德经济行为已呈现出地区性和行业性的特征,而不是某种单一的、偶然的现象,因此是一种结