论文部分内容阅读
搜索引擎作为一种信息检索技术,在当今互联网时代有巨大的应用,与此同时,也有较为广阔的发展前景,并且已经成为互联网行业新的经济增长点。就搜索引擎的搜索内容相关度而言,可以将搜索引擎分为两种,分别为传统的搜索引擎和垂直搜索引擎。传统的搜索引擎,即通用搜索引擎,是一种无差别的以搜索关键词为主要实现方式的搜索技术,这种搜索技术已经在当今互联网发挥巨大的作用;然而,由于其对于特定内容信息检索的相对低效性、较低的准确性以及搜索深度不够等缺点,已经渐渐不能满足人们日益增长的实际需要;而垂直搜索引擎是一种面向主题的搜索引擎技术,而且已经成为互联网行业的研究热点之一。与通用搜索引擎的爬虫相比,垂直搜索引擎的爬虫对信息的抓取更有针对性,往往只抓取某一个类别的网页。垂直搜索引擎的爬虫抓取方式通常有两种:一种叫做主题爬取,它广泛而全面的抓取,再从抓取结果中提取出确定类别的链接,用作下一次抓取的链接;另一种则直接以确定类别的网页链接作为抓取队列中的第一批链接(又被称为种子),再从中按步骤抓取这个类别的信息。最后抓取到的信息被转化为结构化信息加以保存。本论文主要围绕以下几个方面的工作展开:首先,对近年来相关的技术研究成果进行了分类归纳,并对主流技术进行了综述和相对详细的技术介绍。其次,从软件设计的角度,对垂直搜索爬虫应用特点进行了需求分析,提出了一种基于朴素贝叶斯分类方法的垂直搜索爬虫的架构,对垂直搜索爬虫进行了概要设计,并结合了现有的Heritrix网络爬虫框架对垂直搜索爬虫进行详细设计。本论文中设计的垂直搜索爬虫具备良好的可扩展性以及优秀的耦合性等特点。用户通过对垂直搜索爬虫的信息抓取规则进行修改,可以使垂直搜索爬虫按照用户的意愿对网页进行基于特定信息类别的有选择抓取,并得到用户指定的网页结构化信息。再次,结合朴素贝叶斯分类算法的基本原理,对基于朴素贝叶斯算法的分类模型进行了初步建模,对分类器模块进行了设计,并在最后实现了基于朴素贝叶斯算法的文本分类器。最后,对设计的主题爬虫进行了编码实现,并且通过实际抓取网页信息,比对搜索结果,对实现的垂直搜索爬虫进行了测试,验证了本论文设计的主题爬虫的搜索准确性和实用性。