基于网络爬虫的搜索引擎的设计与实现

来源 :湖北工业大学 | 被引量 : 0次 | 上传用户:zhangfuliangez
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
互联网技术在当前取得了飞速的发展,在信息方面,人们有着很大的需求,这为负责Web信息采集的网络爬虫技术带来了很大的挑战。在很多情况下,单机的网络爬虫无法承担艰巨的任务,这就使得人们在Web信息的需求方面,要借助于分布式网络爬虫,这样才能有着很好的信息采集速度和规模。在众多的网络信息中,人们的对信息的需求也是很大的,这两者之间有着太多的矛盾,在此背景下,就迫切需求得到搜索引擎技术的支撑。但是,互联网的资源呈现出几何级数增长,在信息采集方面,需要在索引规模、更新速度以及个性化需求方面,有着更好的追求,借助于搜索引擎,不能较好地为人们需求的个性化、专业化信息检索服务,这就需要在搜索引擎服务方面,需要特定领域的主题搜索引擎。在网络数据挖掘领域中,有着很多的研究热点,而作为主题搜索引擎中占基础核心地位的主题爬虫的研究,更是有待深层次的研究。本研究对一个分布式网络爬虫的搜索引擎进行了设计与实现,主要包括两个方面,具体是硬件的构架以及软件的模块划分。在硬件方面,控制节点是一台PC机,爬行节点为N台PC机,全部连接在局域网中。在软件方面设计为控制节点软件和爬行节点。本研究同时对分布式系统的关键技术的解决方法进行了系统的阐述。在进行任务分割的过程中,系统主要借助二级哈希映射算法,从而让消息通信使节点进行协同工作,借助于非阻塞套接字,让URL在节点间进行有效传递。通过系统设计,最终设计出来的分布式网络爬虫搜索引擎呈现出良好的健壮性、可配置性和可扩展性,并且仔细剖析了分布式网络爬虫搜索引擎。
其他文献
本项目采用突变量启动的方法,主要解决了测试df/dt、du/dt的准确性,并通过加装模拟断路器组,减少在试验时采用现场的断路器,避免造成断路器使用寿命缩短或损坏等等一些问题。
随着我国经济建设的不断发展,工程造价管理成为建筑领域的重要环节。本文重点介绍分析了工程造价管理发展的历史及发展趋势。
稳定平台广泛应用于现代武器装备中,为保证设备的正常工作状态,需要稳定平台隔离载体的干扰,保证设备工作环境的稳定。本文主要完成了测姿传感器的选型并完成了控制电路的设计,包
<正> 新工艺以钐、铕、钆富集物为原料,以P507为萃取剂,在盐酸介质中进行连续萃取分离。包括Gd-Tb分离及洗Tb:Sm-Eu及Nd-Sm分离;Eu-Gd分离及提纯氧化铕。该工艺较先进,具有一
当前,我国证券行业已经开始重构业务架构,逐渐形成了大资产管理、大投行、大经纪、大自营等四大业务线,走向了资本中介型和财富管理型两大发展模式。近两年,资产证券化的正式
全世界每年生产泥炭9000万立方米,其中44%(约4000万立方米)用于欧洲。在欧洲,仅园艺行业每年使用量就高达1650万立方米,其中泥炭栽培基质就占到了80%,已经成为最常用的基质。
针对PET(聚对苯二甲酸乙二酯)瓶温度控制系统的设计,提出采用嵌入式主控制器实现温度采集、人机管理以及相关I/O的控制等。在设计控制器时,选用SAMSUNG公司生产的ARM7芯片S3C4480,