分布式Web Crawler系统研究与实现

来源 :江西理工大学 | 被引量 : 0次 | 上传用户：guomenling

【摘要】

：

随着互联网的爆炸性增长,Web已经发展成为站点遍布全球的巨大信息服务网络,根据CNNIC统计,截至2008年底,仅中国网页总数就超过160亿个,较2007年增长90%。网页的增长速度与网

【作者】

：

胡炜

【机构】

：

江西理工大学

【出处】

：

江西理工大学

【发表日期】

：

2010年期

【关键词】

：

搜索引擎 Web爬虫抓取策略分布式系统网页库

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

随着互联网的爆炸性增长,Web已经发展成为站点遍布全球的巨大信息服务网络,根据CNNIC统计,截至2008年底,仅中国网页总数就超过160亿个,较2007年增长90%。网页的增长速度与网站的增速基本一致。面对如此巨大的信息库,如何快速准确的检索到自己需要的信息呢?搜索引擎已经成为Web信息获取的一种最重要的手段。索引网页数量的大小、质量是评价一个搜索引擎好坏的重要指标。因此,Web爬虫(Crawler)作为搜索引擎的首要组成部分,是一个好的搜索引擎的重要基础。出于商业机密的考虑,目前各个搜索引擎使用的Crawler系统的技术内幕一般都不公开。现有的文献也仅限于概要性介绍。本文的目标就是研究、设计并实现一个分布式Web Crawler系统。本文通过分析搜索引擎的系统组成引出了文章的重点—Web爬虫。并以一个简单的爬虫系统为依托,详细分析了Web爬虫的构建的基本原理。通过研究爬虫系统的抓取策略、重访策略、礼貌性问题等,进一步深入分析了爬虫的核心工作原理。本文设计了具有实用性的分布式Web Crawler体系结构,提出一种分布式合作抓取算法解决爬虫分布式抓取难题,并提出了一种改进的大规模网页存储结构,能同时满足大量的随机访问,以及大量新增网页的需要。最后设计并开发分布式Web Crawler系统,并对爬虫系统的未来给出了展望。本文的具体工作如下:(1)深入研究爬虫系统的抓取策略其中包括网页抓取优先策略、不重复抓取策略,重点分析了网页重访策略以及爬虫礼貌性问题。(2)设计具有实用性的分布式Web Crawler体系结构,在追求负载均衡的同时将系统的通信和管理开销降到最低。(3)提出一种分布式合作抓取算法,根据RMI分布式系统的开发过程,解决爬虫分布式抓取难题。(4)提出一种改进的大规模网页存储结构Hash-Log,能够适应随机访问及顺序访问的不同需求。(5)设计并开发分布式Web Crawler系统,并从性能、可扩展性以及负载均衡等多个方面分析了爬虫的运行结果,达到了非常满意的效果。

其他文献

基于关键词匹配的网页文本过滤算法的研究和实现

在互联网提供的海量、庞杂的信息中,不良信息以不同的表现形式,从不同的角度对不同人群造成毒害或干扰。因此,对网络访问进行必要的、有效的内容过滤是营造健康、安全网络环

学位

信息过滤文本过滤向量空间模型特征抽取用户模板代理服务器

基于证书的单点登录系统设计与实现

随着企业信息化建设的不断进步,很多企业在不同阶段开发出了多个Web应用系统,这些系统有着独立的安全验证机制,用户在访问不同的应用服务时,需要重新进行身份认证,这样既增加

学位

单点登录证书认证授权

基于小键盘的流字输入法研究与设计

随着嵌入式技术在华人用户中的广泛应用，嵌入式系统所采用的汉字输入法也变得日益重要。本文在嵌入式系统中以数字小键盘为基础，对汉字拼音输入法进行了研究与设计。　　本文

学位

嵌入式系统输入法数字小键盘驱动程序通用串行总线

变异测试中测试数据生成及等价变异体的检测

当前，随着普适计算时代的到来，从小到儿童玩具大到国家安全，计算机系统已经渗透到社会生活的各个角落。人们的日常生活也越来越依赖于计算机系统，如家庭电脑，娱乐设施，交通运输，通信

学位

变异测试测试数据生成等价变异体软件可靠性变异算子

基于LPC2378的嵌入式测控系统的设计与实现

随着信息技术的发展,嵌入式技术在航空领域中得到了广泛应用。航空领域的嵌入式测控系统具有可靠性高、实时响应能力强、体积小以及通信接口复杂等特点,给系统的开发带来困难

学位

嵌入式系统ARMLPC2378C运行环境

基于构件的分布式系统的动态更新

软件在线演化技术正成为当今软件维护领域的一个重要研究课题。而软件的动态更新技术动态软件更新方法由于其更新粒度小、更新成本低、操作灵活等优点,成为软件在线演化技术

学位

面向服务OSGiR-OSGi基于服务的构件模型Service Binder

基于文化算法的蝙蝠算法研究

优化问题广泛存在于现实生活中，大多数问题是非线性的，传统数学演算方式无法得到最优目标。为此，元启发式算法被广泛尝试。在应用领域中，最新的趋势是使用群智能优化算法。群智能

学位

非线性系统优化控制变邻域搜索蝙蝠算法

软件系统的运维监控系统的设计与实现

在现代工业生产系统和其他领域,信息技术的发展为各行各业注入了新鲜的血液,提供了新的活力和驱动力,可以说IT软件系统无处不在,无所不能,已经成为了支撑社会运转的重要平台

学位

Qt Creator监控管理运维软件自动安装

商务智能系统关键技术研究

企业信息化发展到一定程度,在应用如ERP、SCM、CRM等业务系统过程中,产生并积累了各种大量数据,不同应用所形成的数据更容易形成信息孤岛。如何充分利用不同业务部门的详尽数

学位

商务智能数据仓库OLAPWeb服务数据挖掘

基于MDA的UML模型转换--从CIM到PIM

模型驱动体系架构(MDA)是一种新的软件开发框架，它的目标是把业务和应用逻辑与底层的平台技术分离。统一建模语言(UML)是MDA的核心标准之一，用于描述计算无关模型(CIM)、平台无

学位

模型驱动体系架构模型转换统一建模语言计算无关模型平台无关模型软件开发

分布式Web Crawler系统研究与实现

其他学术论文