基于聚焦型网络爬虫的影评获取技术

来源 :中国计量大学学报 | 被引量 : 0次 | 上传用户:qingqing4452638
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着"互联网+"概念的普及,网络上的资源随之成倍增长.面对庞大的数据资源,传统的搜索引擎Baidu、Google等已经不能满足人们对于特定信息的获取需求.作为搜索引擎抓取数据的重要组成部分,网络爬虫的作用非常重要.本文主要介绍了网络爬虫的概念、组成模块以及工作流程,在通用爬虫的基础上提出一种聚焦型网络爬虫系统,以python和相应的第三方库为主要工具,通过定义采集函数和给定豆瓣网最新上映电影的网址,快速搜索该网址某电影的影评信息,对页面内链接和外链接进行有效爬取.然后,再对获取到的数据进行分词处理,根据关键词的出现频率生成词云.实验结果表明,该聚焦型爬虫系统能够将所有影评信息以JSON格式存储到本地,并通过词云直观的展示出来.
其他文献
通过对基本建设财务管理过程的分析,找出了容易忽视或出现问题的环节,提出了具体的意见,对促进各单位搞好基本建设财务管理具有一定参考价值。
作为职业教育学的研究生,来到这所中国最早与德国汉斯·赛德尔基金会合作办学的职业学校,有幸体验到了原汁原味的“双元制”,感受到了“双元制”的魅力,这是做学生时在书本上
大力加强师资建设已成为职业学校刻不容缓的目标。无论是充实教师队伍还是提高教师质量或是建设“双师型”师资,兼职教师都是高职院校一支非常关键的力量。
关注源头,保护源头是历史赋予人们的责任。她,承载着古往今来无数的企盼与希冀,造福两岸生灵。她,把贫瘠留给自己,把甘霖奉献给人间。她,没有文人墨客的吟咏,默默地被冷落在
摘要:标准节高强度连接螺栓的紧固程度参数是施工升降机、塔式起重机等机电类特种设备检验的主要内容。本文总结了目前主要的几种方法,即扭矩扳手法、敲击检测法、压电阻抗分析法、应变片电测法、超声波测量法、标记法的基本原理、适用范围和现状,并比较了各自的优缺点。然后根据高效与实时的要求,在标记法的基础上,提出并分析了基于机器视觉技术的螺栓安全状态检测方法的可行性。  关键词:高强度螺栓;安全状态;检测;机器
一年一度的事业单位年终考核(绩效考核)工作结束后,考核的结果也都存进档案束之高阁了。然而,考核的办法是否科学、合理,考核的结果是否公正、客观,考核工作的绩效如何,都值得我们人
山西恒山饲料研究所和农业部规划设计研究院共同完成的安全高效、能够替代抗生素激素类饲料添加剂——“无公害畜禽微生态制剂研制开发”项目通过鉴定。这种名为“麦科隆”生
本文根据实际生产实践,对齿轮轴加工的下料、切削、表面处理、热处理等加工工艺进行了具体的分析和探讨,并对在生产实践中验证过的能够具体实施,并且能够保证齿轮轴加工质量以及
文章就泥沙对尊村引黄泵站造成的危害进行了分析探讨,提出了减轻泥沙危害的途径和措施,可为类似灌区泥沙治理提供借鉴。