基于网络爬虫的搜索引擎的设计与实现

来源 :湖北工业大学 | 被引量 : 0次 | 上传用户：zhangfuliangez

【摘要】

：

互联网技术在当前取得了飞速的发展,在信息方面,人们有着很大的需求,这为负责Web信息采集的网络爬虫技术带来了很大的挑战。在很多情况下,单机的网络爬虫无法承担艰巨的任务,

【作者】

：

冯丹

【出处】

：

湖北工业大学

【发表日期】

：

2004年期

【关键词】

：

分布式网络爬虫搜索引擎

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

互联网技术在当前取得了飞速的发展,在信息方面,人们有着很大的需求,这为负责Web信息采集的网络爬虫技术带来了很大的挑战。在很多情况下,单机的网络爬虫无法承担艰巨的任务,这就使得人们在Web信息的需求方面,要借助于分布式网络爬虫,这样才能有着很好的信息采集速度和规模。在众多的网络信息中,人们的对信息的需求也是很大的,这两者之间有着太多的矛盾,在此背景下,就迫切需求得到搜索引擎技术的支撑。但是,互联网的资源呈现出几何级数增长,在信息采集方面,需要在索引规模、更新速度以及个性化需求方面,有着更好的追求,借助于搜索引擎,不能较好地为人们需求的个性化、专业化信息检索服务,这就需要在搜索引擎服务方面,需要特定领域的主题搜索引擎。在网络数据挖掘领域中,有着很多的研究热点,而作为主题搜索引擎中占基础核心地位的主题爬虫的研究,更是有待深层次的研究。本研究对一个分布式网络爬虫的搜索引擎进行了设计与实现,主要包括两个方面,具体是硬件的构架以及软件的模块划分。在硬件方面,控制节点是一台PC机,爬行节点为N台PC机,全部连接在局域网中。在软件方面设计为控制节点软件和爬行节点。本研究同时对分布式系统的关键技术的解决方法进行了系统的阐述。在进行任务分割的过程中,系统主要借助二级哈希映射算法,从而让消息通信使节点进行协同工作,借助于非阻塞套接字,让URL在节点间进行有效传递。通过系统设计,最终设计出来的分布式网络爬虫搜索引擎呈现出良好的健壮性、可配置性和可扩展性,并且仔细剖析了分布式网络爬虫搜索引擎。

其他文献

新型频率电压紧急控制装置的测试应用

本项目采用突变量启动的方法，主要解决了测试df/dt、du/dt的准确性，并通过加装模拟断路器组，减少在试验时采用现场的断路器，避免造成断路器使用寿命缩短或损坏等等一些问题。

期刊

电力系统电压稳定低压减载

关于工程造价管理发展的历史研究

随着我国经济建设的不断发展,工程造价管理成为建筑领域的重要环节。本文重点介绍分析了工程造价管理发展的历史及发展趋势。

期刊

工程造价管理历史趋势

某型稳定平台控制系统的硬件设计

稳定平台广泛应用于现代武器装备中，为保证设备的正常工作状态，需要稳定平台隔离载体的干扰，保证设备工作环境的稳定。本文主要完成了测姿传感器的选型并完成了控制电路的设计，包

期刊

稳定平台测姿系统ATmega2560伺服控制Stabilized platform Attitude measurement system ATmega

P507盐酸体系萃取分离Sm.Eu.Gd富集物新工艺

<正> 新工艺以钐、铕、钆富集物为原料,以P507为萃取剂,在盐酸介质中进行连续萃取分离。包括Gd-Tb分离及洗Tb:Sm-Eu及Nd-Sm分离;Eu-Gd分离及提纯氧化铕。该工艺较先进,具有一

期刊

富集物Sm.Eu.Gd

华福证券公司创新业务发展研究

当前,我国证券行业已经开始重构业务架构,逐渐形成了大资产管理、大投行、大经纪、大自营等四大业务线,走向了资本中介型和财富管理型两大发展模式。近两年,资产证券化的正式

学位

华福证券创新业务发展

欧洲园艺泥炭的开发与环境问题

全世界每年生产泥炭9000万立方米,其中44%(约4000万立方米)用于欧洲。在欧洲,仅园艺行业每年使用量就高达1650万立方米,其中泥炭栽培基质就占到了80%,已经成为最常用的基质。

期刊

园艺泥炭泥炭开发环境问题腐植酸

基于嵌入式的多段温度控制系统设计

针对PET（聚对苯二甲酸乙二酯）瓶温度控制系统的设计，提出采用嵌入式主控制器实现温度采集、人机管理以及相关I／O的控制等。在设计控制器时，选用SAMSUNG公司生产的ARM7芯片S3C4480,

期刊

嵌入式系统多段温度控制ARMCPLDFPGA

基于网络爬虫的搜索引擎的设计与实现

其他学术论文