爬虫日志数据信息抽取与统计系统设计与实现

来源 :北京邮电大学 | 被引量 : 3次 | 上传用户：engcourse

【摘要】

：

随着网络信息的膨胀,人们更大程度上越来越依靠搜索引擎。爬虫作为搜索引擎不可或缺的一部分,它抓取网页质量的好坏,直接影响着整个搜索引擎的搜索效果。因此即使检索,索引等

【作者】

：

王高垒

【出处】

：

北京邮电大学

【发表日期】

：

2012年01期

【关键词】

：

信息抽取爬虫指标数据统计 Hadoop Hive

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

随着网络信息的膨胀,人们更大程度上越来越依靠搜索引擎。爬虫作为搜索引擎不可或缺的一部分,它抓取网页质量的好坏,直接影响着整个搜索引擎的搜索效果。因此即使检索,索引等相关工作做的很好很完美,而爬虫收录的大部分是些垃圾网页,那么用户体验也无从谈起。这样就需要根据抓取效果来调整爬虫的调度和抓取策略。那么怎样才能评价爬虫抓取网页的质量和效果呢?这就是本文爬虫日志数据信息抽取与统计系统需要解决的问题。本文所作的工作如下：1_爬虫在种子合并调度和网页下载时会记录日志,爬虫的这些相关日志文件分布在爬虫部署集群的每个节点上,本文将对每个节点上的爬虫日志数据进行收集,合并归档压缩处理,然后将处理好的压缩文件上传到分布式文件存储系统HDFS上,最后对压缩文件产生索引文件。2.对于一个分布式爬虫集群来说,若每天下载的url数目控制在8亿到十几亿之间,那么每天爬虫日志至少会在几百GB级,所以每天上传到分布式文件存储系统HDFS上的压缩文件也在150GB左右,单机对于处理海量数据显得力不从心,因此本文采用信息抽取技术作为技术基础,通过Hadoop作为计算平台,利用Hive对爬虫日志数据进行结构化处理,由Hql语句将爬虫关心的统计指标转化成Job提交Hadoop集群处理,最后将MapReduce计算之后的指标结果数据导入到Mysql数据库中。3.最后本文采用PHP的轻量级框架CI (Codelgniter)对导入到Mysql中的爬虫指标数据信息进行页而展示和报表邮件发送。实验数据表明,本文以爬虫的日志数据作为数据来源,采用Hadoop, Hive的海量数据处理平台,能在有限的时间内完成有效信息的抽取,为爬虫的策略调整提供可靠的数据支持。

其他文献

我国企业上市前私募股权投资定价影响因素研究

近年来,私募股权投资逐渐成为我国资本市场上的热点话题。很多企业通过采用私募股权融资的方式来筹集资金,实现自身价值的加速增长,这直接带动了我国私募股权投资行业的蓬勃

学位

私募股权投资企业价值评估市盈率法

论唐代行书入碑

以行书作为入碑的书体,是研究碑刻书法艺术中重要的一种,与其他书体的碑刻作品有许多相同之处,同时又有其特殊性所在。行书入碑真正成热是在唐代.产生了较多行书入碑的书法碑

学位

唐代书法行书入碑

中国传统元素在现代平面设计中的融合与创新

在现代平面设计中融入中国传统元素,要深刻理解中国元素的文化内涵,深入领悟其艺术精神,同时,充分认识现代西方的各种设计思潮和理念,融会贯通,找准传统与现代的契合点,才能

期刊

传统元素平面设计融合创新

民营企业人力资源管理存在的问题与对策

当前,民营企业在人才资源管理方面存在着人才流失严重、人力资源管理弊端较多、员工基本权利难以保障、家族式管理难以适应现代企业经营管理等问题.因此,应从多方面入手,认真

期刊

民营企业人才资源管理

好生活、去增长和生态自治:可持续发展和绿色经济的替代选择

"绿色经济"并非是对"发展"(一种西方文化的建构)所导致的不可持续性和不平等现状的强有力回应,相反,我们应追求一种不同于发展本身的社会环境的未来。"可持续发展"是一个模糊

期刊

福祉环境正义可持续性经济增长平等可持续发展

弥散张量成像及磁敏感加权成像对创伤性脑损伤的实验与临床动态研究

目的本研究首先通过建立脑损伤动物模型,观察外伤后不同时期弥散张量成像(Diffuse tensor imaging, DTI)和磁敏感加权成像(Susceptibility-weighted imaging, SWI)动态变化规

学位

弥漫性轴索损伤创伤性脑损伤弥散张量成像磁敏感加权成像相位值血氧饱和度

大力推进国防动员军民融合式发展

党的十七大作出了"走军民融合式发展的路子,实现富国和强军统一"的战略部署。这一战略思想,抓住了国防和军队建设带全局性、根本性的重大问题,为统筹经济建设与国防建设提供

期刊

国防动员军民融合战略思想经济建设重大问题国防和军队建设适应形势国防建设根本指导战略部署

爬虫日志数据信息抽取与统计系统设计与实现

其他学术论文