论文部分内容阅读
互联网技术飞速发展,用户对搜索结果的准确性和高效性提出了更高的要求,为满足用户需求,垂直搜索引擎应运而生。随着人工智能时代的到来,越来越多的用户希望在互联网中对人工智能领域的相关信息进行精准搜索。因此,本文通过对互联网中海量信息进行有策略的爬取和准确的筛选,设计并实现了一个既专业又全面的面向人工智能领域的垂直搜索引擎,该系统主要由信息采集、索引建立、用户搜索、用户注册登录及后台管理五大模块构成,能够为用户提供精确的主题搜索服务,主要完成工作如下:(1)对传统朴素贝叶斯分类算法的不足进行了研究,提出了一种基于Jensen-Shannon(JS)散度特征加权的朴素贝叶斯分类算法。通过进一步分析得出,仅用JS散度值来表示特征词所能提供的信息量仍有改进空间,于是将词频、文本频、类频相结合对JS散度做了进一步的修正,依照特征词对分类结果所产生作用的大小赋与其不同的权值,完成了对朴素贝叶斯算法的改进。通过实验表明,基于JS散度特征加权的朴素贝叶斯分类算法是一种较好的分类算法。(2)完成了对人工智能领域相关信息的采集和处理。对Webmagic爬虫框架进行了深入研究,在其基础上增加了网页内容的主题相关性判断子模块及链接主题相关性排序子模块,并实现了面向人工智能领域的主题爬虫。首先建立人工智能主题词库及初始种子链接集合,作为后续网页分类工作的基础;然后以本系统的具体需求为标准,对Webmagic框架进行了二次开发,实现了网页下载、解析、抽取、持久化等主要功能,并将主题词库中的特征词作为网页分类的特征属性,使用基于JS散度特征加权的朴素贝叶斯算法实现网页内容的主题相关性判断,同时使用PageRank算法对网页中链接的重要程度进行量化,实现了链接主题相关性排序,以便爬取高质量的链接。(3)建立索引,完成用户搜索。将爬取的相关网页信息导入到Solr服务器中,并在Solr中配置IKAnalyzer分词器,以Solr服务器为核心完成索引的建立,进而完成面向人工智能领域垂直搜索引擎的用户搜索功能。(4)基于SSH框架实现了基于网络爬虫的面向人工智能领域垂直搜索引擎系统,实现用户注册登录、后台管理等功能,设计并实现了美观、交换性强的系统,并对该系统进行了有效测试。