【摘 要】
:
在互联网技术飞速发展的时代,大量的信息在互联网上创造和产生,用户对于关键信息的检索需求越来越高,是否能够快速的从互联网上检索出关键信息,决定了一家互联网公司能否在这
论文部分内容阅读
在互联网技术飞速发展的时代,大量的信息在互联网上创造和产生,用户对于关键信息的检索需求越来越高,是否能够快速的从互联网上检索出关键信息,决定了一家互联网公司能否在这一波互联网大潮中筑稳基石。本文基于互联网的检索需求,结合系统稳定性和高产出比,提出了一种分布式聚焦爬虫的实现方案,该方案着眼于企业对特定互联网信息的搜集,建立了一种高效可行的爬虫系统,以有限的计算机资源实现大量的信息爬取工作。分布式聚焦爬虫系统首先从企业的需求出发,经过详细的需求分析和性能分析,在现有技术之上,对系统的各个模块进行了划分,并且针对具体的模块提出了创新性的设计,使用Python作为主要的开发语言,实现了Master-Slave体系结构的分布式技术,由于本文的用户群体主要是旅行服务类公司,爬虫聚焦于爬取酒店、机票、火车票、大巴票的官网数据,以XPATH和正则表达式结合的方式来解析抓取到的网页数据,在解析过程中,以逻辑代码与配置文件相结合的方式,创造性的提高系统的高内聚低耦合性,通过定义爬虫返回状态码并统计一段时间的数据,作出爬虫系统的爬取状态图,从而定位到爬虫系统的具体的问题,再对这些问题进行针对性的解决,有效的提升了爬虫系统的稳定性,实现了爬虫实现与优化的一体化设计。在Master-Slave分布式技术的实现上,采用了线程池技术来控制每一个Slave机器所能开启爬虫的数量,大大的提高了爬出系统的抓取效率,对于Slave服务器的设计则是利用定时器自动重启的功能来避免内存泄漏,从系统的层面上提高了系统的稳定性。本文所设计的分布式聚焦爬虫系统在企业上得到了具体的应用,在稳定性得到一定满足的情况下,以最大的产出比来爬取旅行类网站的数据,通过对最终解析的结构化数据的使用,实现了较大的企业利润。
其他文献
在急剧变化的竞争环境中,成本成为一个影响到企业竞争力大小、生存发展潜力高低的重要问题。企业为了能在激烈的市场竞争中立于不败之地,必须进行成本管理的变革,变传统的被
上颌前牙区美学修复是口腔医学的重要组成部分。多数学者一直致力于牙体排列、大小、颜色等方面的研究,而对于牙龈美学的研究相对较少。牙龈美学作为微笑美学不可或缺的部分,
屈原的忧乐观是复杂的,它深深扎根于楚民族传统文化与心理结构,并接受时代思想的洗礼。忧乐观影响下的屈原悲苦一生,最后投江自尽。自我意识觉醒的屈原兼具理性精神与个性气
大豆是重要的粮油兼用作物,世界各地均有种植。大豆种子中含有丰富的脂肪、植物蛋白以及营养物质。但是大豆的生长环境使其经常面临病原体、害虫等生物胁迫和高温、干旱等非
科技成果转化对地区的经济发展起了关键作用,因而对它的评价具有理论和实践的指导意义。四川省经济社会发展比较落后,然而其科学技术发展相对超前,许多研究领域在全国领先,甚
主题爬虫核心问题是主题的相关性判别问题。如何在爬取过程中,快速、准确地判别爬取页面的主题相关度,是决定主题爬虫搜索策略好坏的关键所在。提出利用两步向量空间模型计算
<正>2018年12月18日,日本政府正式敲定新一期《防卫计划大纲》及《中期防卫力整备计划》(以下简称新防卫大纲及"中期防")。作为国家安全政策纲领文件,新防卫大纲进一步反映了
基因工程技术,尤其是以大肠杆菌(Escherichia coli,E.coli)克隆表达系统为基础的原核基因工程技术,使得人们可以在E.coli中高效表达出几乎任何一种有理论和应用价值的蛋白,用
中国自改革开放以来,特别是1990年代中后期,居民收入差距呈现出持续扩大的趋势,放眼世界,很多经济发达国家也面临着同样的问题,因此,收入分配差距问题逐渐引起各国政府和学术
<正>近年来,巢湖市人民检察院以习近平新时代中国特色社会主义思想为指引,树立"创新发展、争先进位"工作目标,扎实推进各项工作,2017年度荣获安徽省检察文化建设示范院和检察