WEB网站内容更新检测关键技术研究

来源 :哈尔滨工程大学 | 被引量 : 0次 | 上传用户:AAA0662AAA
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
现如今互联网发展迅猛,其上所蕴含的有价值的资源信息也不计其数,我们无时无刻不需要从中获取有效的实时消息。与此同时,随着动态脚本技术的逐渐成熟,互联网上的资源信息不仅呈指数级的增长,而且其内容的更新频率也愈加频繁,所以对于如何从基于脚本技术的动态网站中获取其完整内容,以及以何种方式对如此大规模数据的内容进行更新检测的研究就有着相当重要的意义。因此,本文提出两个研究内容:其一是针对基于脚本技术的动态网站,如何对其内容进行完整的爬取;其二是针对已爬取的网站内容,如何对其更新情况进行有效的跟踪检测。在对动态网站内容的爬取中,现有的爬取模型是利用浏览器实例或脚本引擎实例对脚本代码进行解析,并通过对返回的结果构建状态图从而实现完整的爬取,但在爬取过程中首先并未考虑对脚本代码的并行解析模式,其次在对状态图的构建过程中并未对冗余状态进行消冗,从而导致爬取效率较低。因此本文提出了一种基于状态消冗的动态网站内容爬取模型,该模型首先通过构建脚本引擎池对所提取的脚本代码进行并行的解析执行,然后对返回的结果进行状态图的构建,并在此过程中利用哈希表模拟状态仓库进行状态消冗。最后通过对比实验证明,本文提出的模型能够正确完整的对动态网站内容进行爬取,并在爬取效率上得到了提升。在对网站内容的更新检测中,现有的更新检测模型是先对已爬取的数据进行一段时间的更新情况统计,并根据统计结果按频率划分类别,并在之后始终以各类别所对应的固定频率进行更新检测。它的问题在于无法对新爬取的网页直接进行类别的划分,也无法根据网站自身的变化情况自适应的调节更新检测频率。因此本文提出了一种基于网页内容分类的自适应更新检测模型,该模型首先利用机器学习中的支持向量机分类算法根据训练数据创建分类器,然后用其对新爬取的网页进行类别的划分,以便确定其初始的更新检测频率,最后利用一次指数平滑算法根据网站自身的变化情况自适应的调节更新检测频率。最后通过对比实验证明,本文提出的模型对于网站内容的时新性上有了明显的提高。
其他文献
目的研究对住院患者出现多重耐药菌感染现状进行分析,并制定一定护理对策。方法我院于2014年2月至2015年2月期间,全院进行多重耐药菌调查,进行常规风险防范护理措施,在2015年
<正>会议号召中国航发广大干部职工要坚定信心、扛起使命,鼓足干劲、扎实工作,加快实现航空发动机及燃气轮机自主研发和制造生产,为把我国建设成为航空强国而不懈奋斗。中国
以MJ345A型木工带锯机为研究对象,空载下,运用先进的北京波普振动分析仪和Vib’sys振动信号采集、处理和分析软件进行振动信号采集和分析,通过锯条横向振动位移、自功率谱分
<正>据中国中医药报报道:在全国人大十届四次会议期间,全国人大常委、中国工程院院士、中国中医科学院名誉院长、中华中医药学会副会长王永炎教授在接受记者采访时强调指出,
美国特种部队现已成为美国实施低强度战争、应付突发事件、执行反恐怖作战的"杀手锏"。在20世纪以来美军发动的几次典型军事行动中,无处不见他们的身影。其行踪诡秘,"神龙见
目的研究丹参注射液对糖尿病大鼠肾小管Toll样受体4 (TLR4)蛋白表达的影响。方法高糖高脂饲料联合腹腔注射链脲佐菌素建立大鼠糖尿病模型,40只大鼠随机分为正常组、模型组、
详细地讨论了调合汽油辛烷值模型的研究状况及其发展过程.对非线性模型和物理化学模型进行了深入的对比分析.指出了非线性模型存在精度低,难以实现在线最优化控制,可靠性差的问题
5G通信技术与大数据的发展越来越快,基于通信的社会感知领域的研究也越来越多。本文通过对5G通信和大数据技术的分析,力求为通信与社会感知的发展指明方向。
<正>花灌木,主要是以观花为主的灌木树种,是园林绿化的重要组成部分。对花灌木进行科学合理的整形修剪,不仅可以使树形优美,促进健壮生长,且还能调节树体内营养物质的合理分