论文部分内容阅读
在大数据时代,利用网络爬虫自动定向采集多网页有用的信息,并将爬取信息储存至数据库,Excel,Word等,可以根据网页历史数据来确定爬虫爬取网页更新信息的周期,大大增加了信息的更新及时性。基于Python3.5定向爬取当当网最新上架图书,存储图书基本信息到Word文档,并且可对比历史爬取记录,更新新书信息。