面向垂直搜索的网络爬虫设计与实现

来源 :北京邮电大学 | 被引量 : 1次 | 上传用户:muscleprince
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网的高速发展,互联网上的数据也在超乎人想象的急剧增长,人们对数据和信息的需求也在持续的增长。搜索引擎可以帮助人们从海量的数据中检索出需要的信息和数据,所以搜索引擎已经成为人们日常生活中必不可少的工具之一,它也影响了人们日常的记忆习惯。通过分析当今全球主流的搜索引擎包括Google、百度、Yahool、Bing、搜狗等,我们发现这些主流的搜索引擎都包含了三个主要的部分:网络爬虫、索引、前端搜索,这三部分也是在工业界认可的三个主要部分。但是随着人们对信息的要求程度越来越高,目前搜索引擎的通用搜索已经不能满足人们的专门的需求,因为通用搜索引擎搜索结果信息量大,深度不够。基于此,垂直搜索大力发展起来。由于垂直搜索的专业性,以及对专属领域的深度,深受广大网民的青睐。强大的搜索引擎离不开数据的支持,而搜索引擎数据来源主要通过网络爬虫来获取,所以网络爬虫对于搜索引擎至关重要。本文面向垂直搜索引擎,搭建畅邮系统,提供通用搜索、图书搜索和视频搜索三种服务。首先,根据校园网络状况设计畅邮系统的架构,聚合三种服务于同一入口,并使畅邮系统能够实现不同网段的无缝访问。其次,调研当前主流开源网络爬虫,根据畅邮系统的需求选定Heritrix为网络爬虫原型,并分析其源码。在此基础上,对Heritrix进行高度定制,并解决异步加载抓取的问题。然后,根据Heritrix的运行状态和特点,设计并实现了适合垂直搜索引擎增量抓取的ChangyouSpider,它轻便、高效,以弥补Heritrix的不足,由此本文结合Heritrix和ChangyouSpider使用作为垂直搜索引擎抓取的网络爬虫。最后,对抓取的数据从全面性、杂质率、异步加载抓取、页面有效性的测试验证了爬虫的功能和性能。
其他文献
<正>本刊讯2015年1月9日,宁夏回族自治区政府秘书长王紫云在办公厅主任赵小平一行的陪同下,到自治区无委办调研工作。王紫云一行首先来到宁夏无委办2014年度效能目标考核工作
本文主要介绍了一种由PET薄膜、PI薄膜或NOMEX纸涂布环氧树脂胶粘剂制备而成的绝缘衬垫材料,此材料主要用作层压母线绝缘与粘接,从层压母线粘接及绝缘的测试数据表明其绝缘性能
世界已进入信息化时代,以无线电频谱作为基础资源的无线通信及其他应用,在信息社会、经济建设、国防建设等各个方面越来越显示出不可替代的重要性。无线电技术及其应用已经渗
目的:探讨电针(electro-acupuncture, EA)联合神经生长因子(nerve growth factor, NGF)对脑缺血再灌注损伤后大鼠内源性神经干细胞的增殖、迁移、分化的影响。通过实验,提供更
随着我国的国际政治、经济地位不断提高,国际政治、经济、文化交流日益增多,在我国举办各类重大活动日趋频繁。无线电保障是重大活动保障工作的重要组成部分,其核心是:在重大