基于P2P的被动式网络爬虫系统

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:yiwen_yu
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网的快速发展,网上的信息也成几何级数爆炸增长,同时用户对信息的需求也越来越高,他们希望搜索引擎提供最新的数据,最符合要求的信息。传统网络爬虫作为提供搜索引擎原始信息的最基本途径,其性能已经几乎达到瓶颈,逐渐无法适应新型的网络应用需要。本文研究了现有的网络爬虫模型及其目前的研究方向,介绍了各种对传统网络爬虫的改进方法,并对各种方法的优缺点进行了详尽的分析,总结了爬虫面临的主要挑战,如网页更新收录慢,网站访问压力大,无法处理多媒体文件等。为解决这些问题,本文提出一种基于P2P的被动式爬虫系统,从根本上摒弃了传统爬虫的工作模式,它通过客户端-服务器模式由网站推送数据,搜索引擎只负责接收,并且借助于智能体技术和P2P传输,提高了搜索引擎原始网页获取能力。该被动式爬虫分为爬虫客户端和爬虫服务器两部分,其主要功能有:客户端和服务器相互发现及注册,客户端监视网站目录更新,客户端预处理数据并安排传输时间,客户端与服务器数据传输。本文在全能体技术平台的层次架构、通信方式等相关技术基础上,设计并实现了整个P2P被动式爬虫系统。该系统运用XML定义设备及文件的描述,通过单播技术实现了站点发现及注册方法,采用分块的方法实现了文件的传输,在现有的BitTorrent协议基础上提出一种适用于本系统的改进的片段选择算法。通过对实验结果的分析,系统很好的完成了设计目的。本系统采用的P2P被动式爬虫结构占用系统资源少,网站更新收录快,网站访问压力小,数据传输效率高。
其他文献
虚拟机迁移是云计算中云云协作所需的关键技术,经典的虚拟机迁移策略在局域网环境中能很好地工作,如预拷贝迁移策略和后拷贝迁移策略,但广域网环境中网络带宽低且不稳定,传统
当今,全国各大城市正在大力发展城市公共交通事业,公交专家系统成为提高公交系统信息化、现代化的重要措施。公交专家系统在公交调度、线网优化方面都应该发挥其重要作用。蚁
人脸识别的理论与技术是近二十年来最为热门的研究领域之一。尽管人脸检测和识别方法取得了巨大发展,但是可变光照对人脸识别的影响,无论在理论、方法还是应用上,仍是一个亟待解
信息社会中手机及其它无线设备越来越多地走进普通老百姓的工作和生活中。现阶段的手机平台上的输入方法主要分为人工编码键盘输入法和手写识别输入法,无论哪种方法对于汉字
分形的概念是1975年由IBM公司的曼德尔布罗特(B.B.Mandelbrot)定义并开始发展的,分形理论作为从复杂的现象本身直接研究到其内在所具有的规律,它可描述自然界复杂的现象。如
无线局域网(WLAN)是目前无线网络技术的研究热点之一。由于支持用户高效率、高质量、低成本的移动接入,因此得到了非常广泛的应用,但同时开放的无线传输带来了比有线网络更多
随着世界经济一体化进程的加快、大型跨国企业的进入使民族产业所面临的局势更加严峻。如何应对挑战,各级政府部门和许多市场意识敏锐的企业已经将物流作为提高市场竞争力以
XML正迅速取代HTML成为Web上信息表示、集成和交换的标准。与HTML相比,XML具有简单、自我描述的特点,并且实现了内容、结构和表现三者的分离,更适合于Internet上数据表示和交
随着网络技术和测试技术的发展,协议测试技术越来越受到人们的重视。协议测试是用来保证协议实现的正确性和有效性的重要手段。作为协议测试的一种形式,协议一致性测试用于测
本文是对本公司年产260kt电解铝生产项目所配套的整流所AC220kV高压供配电及DC350kA整流机组综合自动化技术的进一步研究和思考。首先对AC220kV/DC350kA高压供配电及整流机组