论文部分内容阅读
如今,由于互联网的发展速度愈来愈迅速,信息与资源的传播和发布也随之变得更加迅速和快捷,互联网上信息量的规模也因此日益巨大,这就导致信息检索愈加艰难了,不过幸运的是用户可以利用搜索引擎非常迅速的检索信息,并且把搜索引擎当作日常生活和工作中一种必不可少的工具。作为搜索引擎的抓取模块之一的网络爬虫,主要的职责是搜集并且下载互联网上人们所需要的网页。搜索引擎优劣的评判标准在一般情况下主要取决于爬虫系统的工作效率和所爬取到的网页的准确率,因此爬虫是构成搜索引擎非常关键的部分之一,需要人们去好好的改进与研究。近些年来,由于网络规模的无限扩大,导致通用爬虫的负担无比沉重,至此主题爬虫便显得尤为重要,它是一种面向个性化服务的系统,会更加有针对性的选取某个特定领域进行爬取,获取用户真正想要的信息,这使得人们的工作效率大大改善,于是主题爬虫便吸引了大家广泛的重视。一条崭新的路径缠绕着主题爬虫领域展开着,此领域的实用价值与理论价值都是不可估量的,本文主要围绕主题爬虫所涉及的相关技术和特点进行了研究,所做的一系列任务和所取得成果如下所示:(1)实现了一种改进的PageRank算法,改进的PageRank算法的核心思想就是把互联网上的整个网页分成许多个块,然后采用分治法,分别计算各个块的PageRank值,再根据各个块的权值的相对重要性,求出整个网页的PageRank值。(2)提出了一种新的分阶段融合的语义相似度计算方法。从语义角度理解汉语,比基于统计的方法更贴切。通过研究和对比,本文提出了从句子、段落到文本整体分阶段进行的计算方法,结合每个阶段的特点,分别融入了对文本语义的计算因素,力求最后的相似度计算结果更为准确。(3)研究了当爬虫系统爬取到的网页数量非常大时,如何消除重复的URL,本文主要是借助MD5算法建立索引,然后将索引建立成B树的结构,使索引存储在内存中,而数据部份则存储在硬盘当中,从而降低了空间复杂度。(4)运用所改进的相关算法,模拟并简略实现了一个手机主题爬虫系统,用代码进行实验论证,并且分析最后的实验数据,论证了本文理论的有效性和合理性。