论文部分内容阅读
数据时代背景下,越来越多的企业、个人都意识到数据的价值,数据的重要性日益凸显,网络资源共享问题成为了越来越多网络研究领域的研究对象。利用互联网,实现数据、网络带宽、机器计算空间等各方面的共享,实现资源的高效整合和利用。由于数据来源分布广、爬取的信息数据量大、数据种类繁杂等特征,导致海量信息无序化,这对于想要获得某个专业领域资源的用户带来不便,用户很难得到精化搜索结果。专业型网站不断涌现,为满足专业型用户查询特定主题的信息,主题爬行器应运而生。较综合型爬行器更适合于现在的网络环境的发展与互联网用户的需求,能够从海量的信息中,更加精确地对其进行查找、抽取等,同时通过分布式处理技术,来加快整体爬行器在页面爬取、存储工作上的效率,以更好的应用于当前网络时代背景。本文针对综合型爬行器对网站的横向信息爬取、搜索结果分散、主题关联性不强即爬取的内容多但不一定主题相关度高等问题,对主题相关度计算的算法进行了分析和研究;通过对链接的结构、网站页面的连通方式和页面内容等多方面内容进行综合,设计出了主题相关度计算算法,基于此算法实现了主题型网络爬行器;针对多爬行器协同工作问题,采用分布式结构进行爬行器的部署,实现了负载均衡和信息交互的分布式主题网络爬行器的并行页面爬取以及存储;针对网页中可能涉及到的网站保护策略,造成爬行器无法爬取问题,研究了相关错误恢复机制,实现对网页的信息抓取。