基于Python的豆瓣读书网站用户信息采集

来源 :电脑知识与技术 | 被引量 : 0次 | 上传用户：hanzedong

【摘要】

：

21世纪是大数据时代。随着互联网的发展与普及,人们在互联网上会留下大量的"个人信息足迹"。网络数据量呈指数级增长,与此同时人们获取想要的信息的难度也大幅度提高。搜索引

【作者】

：

李鑫欣关菁华

【机构】

：

大连外国语大学软件学院

【出处】

：

电脑知识与技术

【发表日期】

：

2019年3Z期

【关键词】

：

Python 网络爬虫数据采集模拟登录 URL去重

【基金项目】

：

辽宁省社科规划基金项目一般项目——大数据环境下突发事件谣言预警研究(项目编号:L17BTQ005);大连外国语大学科研基金项目一般项目——基于深度学习的微博舆情热点分析方法研究(项目编号:2016XJJS30);省级一般项目——辽宁省大连外国语大学大学生创新训练项目(项目编号:201810172071)

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

21世纪是大数据时代。随着互联网的发展与普及,人们在互联网上会留下大量的"个人信息足迹"。网络数据量呈指数级增长,与此同时人们获取想要的信息的难度也大幅度提高。搜索引擎的出现和发展提高了用户检索信息的效率。网络爬虫是搜索引擎相关技术的重要组成部分,爬虫技术的发展助推信息资源获取更加高效便捷。基于Python技术对目标网站--豆瓣网用户读书喜好信息(包括用户想读、在读、读过、评论等)进行采集与存储,为后期的个性化推荐方法研究提供数据支持。在数据采集过程中涉及URL去重、模拟登录、翻页等技

其他文献

第十一讲努尔哈赤的福星和恩人——李成梁

<正>大家都知道努尔哈赤是个英雄,他之所以能成为英雄,无疑是由于他具备优秀的领袖素质和英勇顽强的拼搏精神。但仅凭这是不够的,我们都知道,成功不能仅凭主观努力,还必须具

会议

试论社会保障权

社会保障权作为现代社会的基本人权,是人类社会文明长期发展的必然结果,是现代社会中保障人的生存和发展的又一重要的权利,是一项独立的、得到一系列国际人权文件确认的基本

期刊

社会保障权人权宪法实质法治

南渡江河口段防洪规划有关问题的探讨

本文论述了南渡江河口段防洪规划有关问题，对防洪治导线规划布置原则及其确定、洪潮水位分析计算中有关参数及计算条件的确定、波浪爬高计算等进行探讨。

期刊

防洪规划防洪治导线洪潮水位南渡江河口段flood control planning flood control regulation line floo