基于URL分析的主题网络机器人研究

来源 :电子科技大学 | 被引量 : 0次 | 上传用户:marina12345
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
作为搜索引擎的重要组成部分,网络机器人能从Internet上自动获取网页,替搜索引擎在Internet上搜集网页。通用网络机器人以种子URL作为入口,对整个Web进行遍历下载。而主题网络机器人不单单是充当一个获取网页的工具,还能够对链接以及页面内容进行主题相关性识别。主题网络机器人并不仅把目标定位覆盖率,还要提高获取主题相关网页的准确性,为搜索引擎提供一个主题相关的网页库。现在,主题网络机器人已经成为搜索引擎技术领域的一个研究热点,是搜索引擎的发展的重点方向之一。本文的主要的研究工作和特点如下:1.研究了一种改进后的FICA(Fast Intelligent Crawling Algorithm)算法,该算法可以快速的对同一层的URL进行简单的重要性排序,这样主题网络机器人就可以优先搜集重要性较高的页面;2.研究了一种改进后的Sydney Strategy算法,该算法既可以有效地控制队列中暂存的URL数量,在很大程度上保证了覆盖度,又可以有效地利用相邻链接间主题相关的特点;3.提出了一种新的隧道穿越的方法:在保证主题网络机器人主线程快速搜集主题相关页面的前提下,利用一个次线程,将主线程搜集的所有主题不相关URL遍历一定的深度,找出其中主题相关的URL,再将这些URL挂回主线程,从而在较大程度上达到对隧道的穿越;4.本文使用改进后的FICA算法,改进后的Sydney Strategy算法,KNN算法以及本文提出的隧道穿越方法,构建了一个快速、高效、智能的主题网络机器人系统——基于URL分析的主题网络机器人,并且详细介绍其整体设计流程、系统结构及线程设计,在这个基础上介绍了系统的几个重要模块和关键技术。
其他文献
电信传送网发展演变的最基本目标是降低通信中信息的传送代价,然而随着分组接入带宽的膨胀和NGN的部署,时分信道化传送已不能完全满足这一基本需求。以太网和MPLS网凭借着自
近年来,光突发交换技术(OBS,Optical Burst Switching)由于其技术上的优势被认为是下一代全光网络的一种可行性方案,逐渐成为国内外研究的热点。本文围绕OBS网络的主要研究内
尽管在1971年蔡少棠就已经提出了忆阻器的概念,但国外对于忆阻器研究的热潮始于2008年惠普公司基于TiO2材料的报道。我国学术界于2010年第一次在正式场合引介忆阻器,虽然只是一
随着现代工业的发展,氢气作为一种重要的工业原料在电力、航天、化工等各部门得到了广泛的应用。但是氢气的不确定泄漏可能危害生命或对工业设备造成极大的破坏,因此,如何对
随着计算机网络技术的飞速发展,信息技术的安全问题越来越受到人们的重视,针对密码芯片的攻击以及防御的研究已经成为当前信息安全的热点研究方向,尤其以功耗攻击为主要手段