搜索引擎中通用爬虫系统的研究与设计

被引量 : 0次 | 上传用户:zhulong22
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,随着互联网的蓬勃发展,互联网信息产生了爆炸性的增长。对互联网用户来说一个很重要的问题就是如何才能快速的找到用户想要的网页内容。信息增长的速度越快,用户的这种需求就越迫切。搜索引擎的出现很大程度上方便了用户快速获取信息的需求,本文围绕搜索引擎,对搜索引擎的重要组成部分—爬虫系统中的相关技术与算法进行了研究与论述。爬虫系统的主要工作就是下载互联网网页为搜索引擎提供数据支持,为了获取网页,爬虫系统首先需要维护一个初始的待抓取队列,依次对队列中的网页进行抓取,同时提取网页中新链接,放到待抓取队列中,一直循环执行,直到待抓取队列为空。本文的研究内容主要有以下几个方面:(1)通过对网络爬虫所涉及技术以及算法的分析,提出了一个通用的并行网络爬虫的系统CWebSpider,并对其内部实现框架进行了深入详细的论述。(2)对CWebSpider爬虫系统涉及到的抓取算法、调度算法以及抽取算法等做了深入的论述,并结合数据结构与伪代码给出了CWebSpider系统在Linux平台下的详细实现。(3)对于CWebSpider中的抓取算法,将抓取器设计为网络层和应用层,并对各层之间的实现进行了很多优化,提高了系统的抓取效率以及可扩展性。对于CWebSpider中的调度算法,本文设计出了一种基于OPIC算法改进之后的算法,有效提高了重要度高的网页优先抓取的机会。对于CWebSpider中的爬虫系统的不重复抓取算法,实现了自行设计的布隆过滤器方法判重,大大节省了内存空间以及判重效率。(4)对CWebSpider系统抓取性能进了详细评测,并对实验结果进行了分析,对下一步工作进行了简单的展望。
其他文献
能源是人类社会赖以生存的基础,是现代经济发展不可或缺的部分。随着人类文明的进步,传统能源的消耗日益增长,有限的资源让人们逐渐意识到新能源开发的重要性,自此新能源产业
班组是企业最基本的组织单元,是一切工作的最终组织者和执行者。加强班组建设是一项战略性、基础性的工作,直接关系到安全生产的稳固和发展,是企业面向未来、着眼长远的战略
在考虑中国上市公司财务信息质量特征的基础上,对常用财务比率进行了调整和拓展,并分别以常用财务比率和调整后的财务比率,利用Logistic回归建立了预测模型。实证分析结果表
随着磷矿品位的不断下降,磷复肥企业必然面对使用中低品位的磷矿。为了解决冷冻法硝酸磷肥生产中深度除钙副产磷石膏的堆积问题,以磷石膏、碳酸铵和氨水为原料进行复分解反应
运用经济学的观点 ,从水资源与各产业 (农业、工业及服务业 )的关系、与经济布局的关系、与城市发展和人民生活的关系以及与生态环境的关系等方面 ,对水资源的经济作用进行了
通过验证不同的抑价理论在中国的可行性,主要是逆向选择对抑价率是否有影响。由于信息的不对称性而导致逆向选择的问题在中国新股市场上是很明显的,这种逆向选择对抑价率应该
中小企业要获得持续发展的力量源泉,提升企业核心竞争力、获取竞争优势的唯一途径就是自主创新。提高中小企业的自主创新能力,首要是构建中小企业自主创新力的机制。本文从影
综述目前船舶柴油机曲轴裂纹的诊断方法,介绍金属磁记忆技术的基本原理及其发展应用.通过与其他方法相比较,提出应用磁记忆结合扭振信号对曲轴裂纹进行在线诊断的方案,最后指
<正> 沙特阿拉伯的女子教育起步很晚,1959年才被提到政府的议事日程上。但在沙特政府向全体国民和讲阿拉伯语居民子女免费提供从幼儿园到中学教育的政策鼓励推动下,沙特的女
随着教学改革的不断深入,新课标对小学数学也提出了新的要求,"有余数除法"是小学数学学习的基础,对学生将来学习更加复杂的除法具有重要影响,对培养学生综合分析、观察能力也