论文部分内容阅读
在网络中,我们可以获取各种各样的资源,然而有效的信息搜索难度也是日益加大。要有效的完成信息搜索,则通过搜索引擎的构建就能够对该问题有效的解决。所谓的多线程网络爬虫程序实际上是由根据宽度优先算法对指定Web页面完成搜索及解析任务,同时抓取搜索中获取的所有URL,同时进行保存,此外,在互联网中,将URL视作新入口,完成持续爬行动作,并对后台程序自动执行。对于网络爬虫而言,其主要应用到的技术包括socket套接字、HTTP协议、正则表达式以及windows网络编程等技术,该网络爬虫实际上是能够在后台进行运行的,其初始的URL是配置文件,实现爬行主要依靠宽度优先算法完成,对目标URL网络程序进行保存,语言的实现主要应用了C++语言,且调试环境为VC6.0,对于常见搜索任务就可以执行。本论文中,第一章节对以英特网为基础的搜索引擎具有的系统结构进行了详细的阐述,主体部分则是对引擎搜索器的设计和实现进行具体的描述,其中网络爬虫即该搜索器。笔者本论文中的主要工作量包括:1、针对网络爬虫SPIDER,分析了其体系的结构;2、设计了系统核心功能模块部分;3、对My SQL数据库进行实现;4、完成队列管理,主要利用URL解析完成;5、设计各函数模块;6、测试网络爬虫的系统。同时,针对网络爬虫进行设计以及实现的内容,对技术核心详细的阐明,也综合考虑了实现多线程网络爬虫代码,对系统实现了准确的说明,也更有助于读者的理解。