基于Python的豆瓣读书网站用户信息采集

来源 :电脑知识与技术 | 被引量 : 0次 | 上传用户:hanzedong
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
21世纪是大数据时代。随着互联网的发展与普及,人们在互联网上会留下大量的"个人信息足迹"。网络数据量呈指数级增长,与此同时人们获取想要的信息的难度也大幅度提高。搜索引擎的出现和发展提高了用户检索信息的效率。网络爬虫是搜索引擎相关技术的重要组成部分,爬虫技术的发展助推信息资源获取更加高效便捷。基于Python技术对目标网站--豆瓣网用户读书喜好信息(包括用户想读、在读、读过、评论等)进行采集与存储,为后期的个性化推荐方法研究提供数据支持。在数据采集过程中涉及URL去重、模拟登录、翻页等技
其他文献
<正>大家都知道努尔哈赤是个英雄,他之所以能成为英雄,无疑是由于他具备优秀的领袖素质和英勇顽强的拼搏精神。但仅凭这是不够的,我们都知道,成功不能仅凭主观努力,还必须具
会议
社会保障权作为现代社会的基本人权,是人类社会文明长期发展的必然结果,是现代社会中保障人的生存和发展的又一重要的权利,是一项独立的、得到一系列国际人权文件确认的基本
本文论述了南渡江河口段防洪规划有关问题,对防洪治导线规划布置原则及其确定、洪潮水位分析计算中有关参数及计算条件的确定、波浪爬高计算等进行探讨。
30多年前,云南省临沧市红土高原依靠独特的自然气候优势,把原产于澳大利亚的山龙眼科坚果属植物引进试种。30余年来,共引进澳洲坚果品种18个,经过对各品种的生长适应性、抗病