爬虫日志数据信息抽取与统计系统设计与实现

来源 :北京邮电大学 | 被引量 : 3次 | 上传用户:engcourse
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着网络信息的膨胀,人们更大程度上越来越依靠搜索引擎。爬虫作为搜索引擎不可或缺的一部分,它抓取网页质量的好坏,直接影响着整个搜索引擎的搜索效果。因此即使检索,索引等相关工作做的很好很完美,而爬虫收录的大部分是些垃圾网页,那么用户体验也无从谈起。这样就需要根据抓取效果来调整爬虫的调度和抓取策略。那么怎样才能评价爬虫抓取网页的质量和效果呢?这就是本文爬虫日志数据信息抽取与统计系统需要解决的问题。本文所作的工作如下:1_爬虫在种子合并调度和网页下载时会记录日志,爬虫的这些相关日志文件分布在爬虫部署集群的每个节点上,本文将对每个节点上的爬虫日志数据进行收集,合并归档压缩处理,然后将处理好的压缩文件上传到分布式文件存储系统HDFS上,最后对压缩文件产生索引文件。2.对于一个分布式爬虫集群来说,若每天下载的url数目控制在8亿到十几亿之间,那么每天爬虫日志至少会在几百GB级,所以每天上传到分布式文件存储系统HDFS上的压缩文件也在150GB左右,单机对于处理海量数据显得力不从心,因此本文采用信息抽取技术作为技术基础,通过Hadoop作为计算平台,利用Hive对爬虫日志数据进行结构化处理,由Hql语句将爬虫关心的统计指标转化成Job提交Hadoop集群处理,最后将MapReduce计算之后的指标结果数据导入到Mysql数据库中。3.最后本文采用PHP的轻量级框架CI (Codelgniter)对导入到Mysql中的爬虫指标数据信息进行页而展示和报表邮件发送。实验数据表明,本文以爬虫的日志数据作为数据来源,采用Hadoop, Hive的海量数据处理平台,能在有限的时间内完成有效信息的抽取,为爬虫的策略调整提供可靠的数据支持。
其他文献
近年来,私募股权投资逐渐成为我国资本市场上的热点话题。很多企业通过采用私募股权融资的方式来筹集资金,实现自身价值的加速增长,这直接带动了我国私募股权投资行业的蓬勃
以行书作为入碑的书体,是研究碑刻书法艺术中重要的一种,与其他书体的碑刻作品有许多相同之处,同时又有其特殊性所在。行书入碑真正成热是在唐代.产生了较多行书入碑的书法碑
在现代平面设计中融入中国传统元素,要深刻理解中国元素的文化内涵,深入领悟其艺术精神,同时,充分认识现代西方的各种设计思潮和理念,融会贯通,找准传统与现代的契合点,才能
当前,民营企业在人才资源管理方面存在着人才流失严重、人力资源管理弊端较多、员工基本权利难以保障、家族式管理难以适应现代企业经营管理等问题.因此,应从多方面入手,认真
"绿色经济"并非是对"发展"(一种西方文化的建构)所导致的不可持续性和不平等现状的强有力回应,相反,我们应追求一种不同于发展本身的社会环境的未来。"可持续发展"是一个模糊
目的本研究首先通过建立脑损伤动物模型,观察外伤后不同时期弥散张量成像(Diffuse tensor imaging, DTI)和磁敏感加权成像(Susceptibility-weighted imaging, SWI)动态变化规
党的十七大作出了"走军民融合式发展的路子,实现富国和强军统一"的战略部署。这一战略思想,抓住了国防和军队建设带全局性、根本性的重大问题,为统筹经济建设与国防建设提供