论文部分内容阅读
互联网技术在当前取得了飞速的发展,在信息方面,人们有着很大的需求,这为负责Web信息采集的网络爬虫技术带来了很大的挑战。在很多情况下,单机的网络爬虫无法承担艰巨的任务,这就使得人们在Web信息的需求方面,要借助于分布式网络爬虫,这样才能有着很好的信息采集速度和规模。在众多的网络信息中,人们的对信息的需求也是很大的,这两者之间有着太多的矛盾,在此背景下,就迫切需求得到搜索引擎技术的支撑。但是,互联网的资源呈现出几何级数增长,在信息采集方面,需要在索引规模、更新速度以及个性化需求方面,有着更好的追求,借助于搜索引擎,不能较好地为人们需求的个性化、专业化信息检索服务,这就需要在搜索引擎服务方面,需要特定领域的主题搜索引擎。在网络数据挖掘领域中,有着很多的研究热点,而作为主题搜索引擎中占基础核心地位的主题爬虫的研究,更是有待深层次的研究。本研究对一个分布式网络爬虫的搜索引擎进行了设计与实现,主要包括两个方面,具体是硬件的构架以及软件的模块划分。在硬件方面,控制节点是一台PC机,爬行节点为N台PC机,全部连接在局域网中。在软件方面设计为控制节点软件和爬行节点。本研究同时对分布式系统的关键技术的解决方法进行了系统的阐述。在进行任务分割的过程中,系统主要借助二级哈希映射算法,从而让消息通信使节点进行协同工作,借助于非阻塞套接字,让URL在节点间进行有效传递。通过系统设计,最终设计出来的分布式网络爬虫搜索引擎呈现出良好的健壮性、可配置性和可扩展性,并且仔细剖析了分布式网络爬虫搜索引擎。