主题爬虫关键技术研究

来源 :哈尔滨工程大学 | 被引量 : 0次 | 上传用户:heaweawelf
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
如今,由于互联网的发展速度愈来愈迅速,信息与资源的传播和发布也随之变得更加迅速和快捷,互联网上信息量的规模也因此日益巨大,这就导致信息检索愈加艰难了,不过幸运的是用户可以利用搜索引擎非常迅速的检索信息,并且把搜索引擎当作日常生活和工作中一种必不可少的工具。作为搜索引擎的抓取模块之一的网络爬虫,主要的职责是搜集并且下载互联网上人们所需要的网页。搜索引擎优劣的评判标准在一般情况下主要取决于爬虫系统的工作效率和所爬取到的网页的准确率,因此爬虫是构成搜索引擎非常关键的部分之一,需要人们去好好的改进与研究。近些年来,由于网络规模的无限扩大,导致通用爬虫的负担无比沉重,至此主题爬虫便显得尤为重要,它是一种面向个性化服务的系统,会更加有针对性的选取某个特定领域进行爬取,获取用户真正想要的信息,这使得人们的工作效率大大改善,于是主题爬虫便吸引了大家广泛的重视。一条崭新的路径缠绕着主题爬虫领域展开着,此领域的实用价值与理论价值都是不可估量的,本文主要围绕主题爬虫所涉及的相关技术和特点进行了研究,所做的一系列任务和所取得成果如下所示:(1)实现了一种改进的PageRank算法,改进的PageRank算法的核心思想就是把互联网上的整个网页分成许多个块,然后采用分治法,分别计算各个块的PageRank值,再根据各个块的权值的相对重要性,求出整个网页的PageRank值。(2)提出了一种新的分阶段融合的语义相似度计算方法。从语义角度理解汉语,比基于统计的方法更贴切。通过研究和对比,本文提出了从句子、段落到文本整体分阶段进行的计算方法,结合每个阶段的特点,分别融入了对文本语义的计算因素,力求最后的相似度计算结果更为准确。(3)研究了当爬虫系统爬取到的网页数量非常大时,如何消除重复的URL,本文主要是借助MD5算法建立索引,然后将索引建立成B树的结构,使索引存储在内存中,而数据部份则存储在硬盘当中,从而降低了空间复杂度。(4)运用所改进的相关算法,模拟并简略实现了一个手机主题爬虫系统,用代码进行实验论证,并且分析最后的实验数据,论证了本文理论的有效性和合理性。
其他文献
随着Web2.0时代的到来,互联网信息呈现爆炸式增长。如何从海量信息中迅速找出用户需要的数据成为了信息检索研究的重点。排序是信息检索系统的重要组成部分,传统的检索模型主
作为一种新的软计算方法,粗糙集理论已广泛应用于知识发现、数据挖掘等领域,但较差的容噪能力使得它在数据分析过程中容易丢失有潜在价值的知识。将标准包含关系扩展为多数包
本文以黑片的边缘检测定位为研究背景,对图像处理中常用的边缘图像检测定位算法Hough变换算法进行研究和改进,主要研究内容包括图像的边缘检测,直线边缘、圆形边缘、圆弧边缘
随着我国信息化技术的深入发展,信息安全日益成为社会关注的重要问题。生物特征识别技术由于自身具有的重要特性,已被广泛的关注和应用,其中虹膜识别技术由于自身的特点(高度
随着工业化进程的不断加深,工业控制设备正在往智能化、网联化和综合化方向不断发展,这对设备的安全性、可靠性和可扩展性提出了新的要求。由于设备在接入网络后必将面临多种潜在的威胁,因此工业控制系统需要采取额外的机制来降低这些威胁带来的影响,至少保证设备的可用性。同时,由于设备的计算能力不断提高,设备提供的功能日益丰富,因此工业控制系统也应具备良好的可扩展性以便扩充其功能。通过对现有内核架构进行分析可知,
学位
与其他传统方法相比,生物技术在个人身份验证和识别方面更有优势,因此近几年来应用到了越来越多的领域。但是,也带来了许多令人担忧的问题。其中,生物识别系统能否被广泛应用的最
智能交通系统是未来交通系统的发展方向,它可以使交通管理更加高效。随着计算机视觉和图像处理技术的不断发展,利用计算机视觉检测识别车辆成为一种特别有潜力的方法。在智能交
随着互联网的普及和电子商务的发展,电子商务系统为用户提供了越来越多的选择,与此同时它的结构也变得愈加复杂,这就会造成用户在大量的商品信息空间中迷失,无法顺利找到自己
随着信息化的不断发展,数字信息呈现着惊人的增长速度,使得大量的数字资源面临着长期保存的难题。当前,数字信息长期保存的研究主要围绕保存元数据、系统架构和迁移等技术机制展
随着近些年信息技术的飞速发展使得数据库成为数据管理的重要工具,但由于不同行业和不同部门间描述数据的方式和方法不同,要实现这些大量的异构的数据共享成为了当今数据集成领