论文部分内容阅读
现如今互联网发展迅猛,其上所蕴含的有价值的资源信息也不计其数,我们无时无刻不需要从中获取有效的实时消息。与此同时,随着动态脚本技术的逐渐成熟,互联网上的资源信息不仅呈指数级的增长,而且其内容的更新频率也愈加频繁,所以对于如何从基于脚本技术的动态网站中获取其完整内容,以及以何种方式对如此大规模数据的内容进行更新检测的研究就有着相当重要的意义。因此,本文提出两个研究内容:其一是针对基于脚本技术的动态网站,如何对其内容进行完整的爬取;其二是针对已爬取的网站内容,如何对其更新情况进行有效的跟踪检测。在对动态网站内容的爬取中,现有的爬取模型是利用浏览器实例或脚本引擎实例对脚本代码进行解析,并通过对返回的结果构建状态图从而实现完整的爬取,但在爬取过程中首先并未考虑对脚本代码的并行解析模式,其次在对状态图的构建过程中并未对冗余状态进行消冗,从而导致爬取效率较低。因此本文提出了一种基于状态消冗的动态网站内容爬取模型,该模型首先通过构建脚本引擎池对所提取的脚本代码进行并行的解析执行,然后对返回的结果进行状态图的构建,并在此过程中利用哈希表模拟状态仓库进行状态消冗。最后通过对比实验证明,本文提出的模型能够正确完整的对动态网站内容进行爬取,并在爬取效率上得到了提升。在对网站内容的更新检测中,现有的更新检测模型是先对已爬取的数据进行一段时间的更新情况统计,并根据统计结果按频率划分类别,并在之后始终以各类别所对应的固定频率进行更新检测。它的问题在于无法对新爬取的网页直接进行类别的划分,也无法根据网站自身的变化情况自适应的调节更新检测频率。因此本文提出了一种基于网页内容分类的自适应更新检测模型,该模型首先利用机器学习中的支持向量机分类算法根据训练数据创建分类器,然后用其对新爬取的网页进行类别的划分,以便确定其初始的更新检测频率,最后利用一次指数平滑算法根据网站自身的变化情况自适应的调节更新检测频率。最后通过对比实验证明,本文提出的模型对于网站内容的时新性上有了明显的提高。