论文部分内容阅读
随着计算机技术和internet的迅猛发展,信息和知识呈现爆炸性的增长,如何获取和利用信息成为现代社会提高竞争力的重要途径,网络爬虫是达到这一途径的重要工具。该文详细阐述了网络爬虫的体系结构、工作原理和URL搜索策略,针对某些网站采用的"反爬"措施,提出了几种爬取策略,以实现网页的有效爬取。对实际网络爬虫获取信息具有重要的参考价值。