论文部分内容阅读
随着互联网的高速发展,互联网上的数据也在超乎人想象的急剧增长,人们对数据和信息的需求也在持续的增长。搜索引擎可以帮助人们从海量的数据中检索出需要的信息和数据,所以搜索引擎已经成为人们日常生活中必不可少的工具之一,它也影响了人们日常的记忆习惯。通过分析当今全球主流的搜索引擎包括Google、百度、Yahool、Bing、搜狗等,我们发现这些主流的搜索引擎都包含了三个主要的部分:网络爬虫、索引、前端搜索,这三部分也是在工业界认可的三个主要部分。但是随着人们对信息的要求程度越来越高,目前搜索引擎的通用搜索已经不能满足人们的专门的需求,因为通用搜索引擎搜索结果信息量大,深度不够。基于此,垂直搜索大力发展起来。由于垂直搜索的专业性,以及对专属领域的深度,深受广大网民的青睐。强大的搜索引擎离不开数据的支持,而搜索引擎数据来源主要通过网络爬虫来获取,所以网络爬虫对于搜索引擎至关重要。本文面向垂直搜索引擎,搭建畅邮系统,提供通用搜索、图书搜索和视频搜索三种服务。首先,根据校园网络状况设计畅邮系统的架构,聚合三种服务于同一入口,并使畅邮系统能够实现不同网段的无缝访问。其次,调研当前主流开源网络爬虫,根据畅邮系统的需求选定Heritrix为网络爬虫原型,并分析其源码。在此基础上,对Heritrix进行高度定制,并解决异步加载抓取的问题。然后,根据Heritrix的运行状态和特点,设计并实现了适合垂直搜索引擎增量抓取的ChangyouSpider,它轻便、高效,以弥补Heritrix的不足,由此本文结合Heritrix和ChangyouSpider使用作为垂直搜索引擎抓取的网络爬虫。最后,对抓取的数据从全面性、杂质率、异步加载抓取、页面有效性的测试验证了爬虫的功能和性能。