分布式Web Crawler系统研究与实现

来源 :江西理工大学 | 被引量 : 0次 | 上传用户:guomenling
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网的爆炸性增长,Web已经发展成为站点遍布全球的巨大信息服务网络,根据CNNIC统计,截至2008年底,仅中国网页总数就超过160亿个,较2007年增长90%。网页的增长速度与网站的增速基本一致。面对如此巨大的信息库,如何快速准确的检索到自己需要的信息呢?搜索引擎已经成为Web信息获取的一种最重要的手段。索引网页数量的大小、质量是评价一个搜索引擎好坏的重要指标。因此,Web爬虫(Crawler)作为搜索引擎的首要组成部分,是一个好的搜索引擎的重要基础。出于商业机密的考虑,目前各个搜索引擎使用的Crawler系统的技术内幕一般都不公开。现有的文献也仅限于概要性介绍。本文的目标就是研究、设计并实现一个分布式Web Crawler系统。本文通过分析搜索引擎的系统组成引出了文章的重点—Web爬虫。并以一个简单的爬虫系统为依托,详细分析了Web爬虫的构建的基本原理。通过研究爬虫系统的抓取策略、重访策略、礼貌性问题等,进一步深入分析了爬虫的核心工作原理。本文设计了具有实用性的分布式Web Crawler体系结构,提出一种分布式合作抓取算法解决爬虫分布式抓取难题,并提出了一种改进的大规模网页存储结构,能同时满足大量的随机访问,以及大量新增网页的需要。最后设计并开发分布式Web Crawler系统,并对爬虫系统的未来给出了展望。本文的具体工作如下:(1)深入研究爬虫系统的抓取策略其中包括网页抓取优先策略、不重复抓取策略,重点分析了网页重访策略以及爬虫礼貌性问题。(2)设计具有实用性的分布式Web Crawler体系结构,在追求负载均衡的同时将系统的通信和管理开销降到最低。(3)提出一种分布式合作抓取算法,根据RMI分布式系统的开发过程,解决爬虫分布式抓取难题。(4)提出一种改进的大规模网页存储结构Hash-Log,能够适应随机访问及顺序访问的不同需求。(5)设计并开发分布式Web Crawler系统,并从性能、可扩展性以及负载均衡等多个方面分析了爬虫的运行结果,达到了非常满意的效果。
其他文献
在互联网提供的海量、庞杂的信息中,不良信息以不同的表现形式,从不同的角度对不同人群造成毒害或干扰。因此,对网络访问进行必要的、有效的内容过滤是营造健康、安全网络环
随着企业信息化建设的不断进步,很多企业在不同阶段开发出了多个Web应用系统,这些系统有着独立的安全验证机制,用户在访问不同的应用服务时,需要重新进行身份认证,这样既增加
随着嵌入式技术在华人用户中的广泛应用,嵌入式系统所采用的汉字输入法也变得日益重要。本文在嵌入式系统中以数字小键盘为基础,对汉字拼音输入法进行了研究与设计。   本文
当前,随着普适计算时代的到来,从小到儿童玩具大到国家安全,计算机系统已经渗透到社会生活的各个角落。人们的日常生活也越来越依赖于计算机系统,如家庭电脑,娱乐设施,交通运输,通信
随着信息技术的发展,嵌入式技术在航空领域中得到了广泛应用。航空领域的嵌入式测控系统具有可靠性高、实时响应能力强、体积小以及通信接口复杂等特点,给系统的开发带来困难
软件在线演化技术正成为当今软件维护领域的一个重要研究课题。而软件的动态更新技术动态软件更新方法由于其更新粒度小、更新成本低、操作灵活等优点,成为软件在线演化技术
优化问题广泛存在于现实生活中,大多数问题是非线性的,传统数学演算方式无法得到最优目标。为此,元启发式算法被广泛尝试。在应用领域中,最新的趋势是使用群智能优化算法。群智能
在现代工业生产系统和其他领域,信息技术的发展为各行各业注入了新鲜的血液,提供了新的活力和驱动力,可以说IT软件系统无处不在,无所不能,已经成为了支撑社会运转的重要平台
企业信息化发展到一定程度,在应用如ERP、SCM、CRM等业务系统过程中,产生并积累了各种大量数据,不同应用所形成的数据更容易形成信息孤岛。如何充分利用不同业务部门的详尽数
模型驱动体系架构(MDA)是一种新的软件开发框架,它的目标是把业务和应用逻辑与底层的平台技术分离。统一建模语言(UML)是MDA的核心标准之一,用于描述计算无关模型(CIM)、平台无