基于Hadoop分布式环境下垂直爬虫的研究与实现

来源 :北京邮电大学 | 被引量 : 0次 | 上传用户:cdwkevin
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着人们对信息搜索个性化服务的需求日益增长,垂直爬虫技术克服了通用爬虫全网爬取的缺点,主要访问用户指定的站点和页面,提高了信息获取的效率和准确率。然而随着网络上数据爆炸式的增长,传统的垂直领域单机爬虫对于海量数据爬取效率已远不能满足需求,且海量存储也是一个很大的挑战。同时,动态网页技术已经广泛应用,给爬虫爬取页面带来了很大的困难。针对爬虫领域面临的这两个问题,本文提出了一个分布式垂直爬虫框架,并对基于状态转换图的动态网页处理算法进行了改进,最后实现了爬取手机App信息的分布式垂直爬虫系统。分布式垂直爬虫框架基于MapReduce的ChainMapper/ChainReducer来设计爬虫各模块,引入Redis内存数据库来对URL等进行管理存储,采用分布式数据库HBase来存储网页提取的特征内容信息。动态网页处理算法针对页面主体模块进行页面相似性判定和有选择性地触发有效元素对原来算法进行了改进,并运用Selenium WebDriver来驱动无界面浏览器Phamtomjs对网页元素上绑定的事件进行触发,下载动态网页的内容。最后基于ChainMR Crawler框架和动态网页处理算法实现了爬取手机App信息的分布式垂直爬虫系统。实验结果表明分布式垂直爬虫框架ChainMR Crawler比Nutch爬取效率高6%,说明ChainMR Crawler有较好的性能。改进后的动态网页处理算法有效减少了无效元素上事件的触发,提高了页面相关性,验证了改进算法的高效性。手机App信息爬虫系统实现了预期功能,具有比较高的爬取效率和扩展性,有较好的实用性。
其他文献
目前中外各类美学教科书和美学辞典,对于审美形态的表述相当混乱,歧义叠出,表现出理论整合的缺失。审美形态是在审美实践活动中特定的人生样态、审美境界、审美情趣和审美风
《白鹿原》是一部具有浓郁文化意识和文化品格的长篇小说。作家陈忠实在面对儒家传统文化中精髓和糟粕共存亡的两难困境时 ,乐于把传统文化置于神化的中心地位 ,因而在一些人
随着国家及地区对旅游业的重视程度以及人们对于物质生活水平要求的不断提高,自然地质的环境清洁及美观程度逐渐成为基于此建设的康复疗养、休闲度假、城市公共设施的重要评
<正> 大家都知道,电视剧是综合艺术。大概出于音乐专业的情结,我欣赏电视剧时,给予音乐更多的关注。好像没有哪部电视剧没有音乐,在一定程度上电视剧音乐可以表达电视剧的文
高职教育以高素质职业技能型人才为培养目标,是民族地区人才培养的重要组成部分。文章以内蒙古地区高职院校少数民族学生为主体,从学生自身和学校管理者两个角度分析少数民族
创新精神能够培养的,导师的引导对此有很大的帮助。导师在教授学生知识的同时,也要努力去激发和提高学生的创新精神和实践能力。文章对生物技术的理论创新、实践能力两方面进
指出了已有初应力法多种加速方案在对考虑材料应变软化特性的非线性有限元进行求解时,并不能保证求解过程的收敛性.借鉴整体割线刚度迭代法的思想,提出了一种新的初应力加速
<正> 在综艺节目“惨遭”传媒和人文学者批评的时候,在各地一些曾经红火过一时的综艺节目悄然下马的时候,资源整合后的江苏省广播电视总台新闻综合频道(即江苏卫视)出人意料
公共服务市场化是当今时代的发展趋势。我国实行公共服务市场化后,取得了较大的成效,但在实行公共服务市场化的过程中存在着政府责任缺失的问题,主要有保守与激进并存;制度供
毕业论文是检验大学生四年来学习成果的一项重要任务,通过毕业论文的撰写和答辩过程,能够提高学生分析问题,解决问题、查阅文献和写作能力,是对学生的一项综合测评和检验。笔