论文部分内容阅读
Ajax技术随着Web2.0应用的流行而日趋普及.由于其异步传输特性,传统聚焦爬虫往往无法得到异步加载的页面内容.针对应用了异步传输和JavaScript技术的新闻网站及评论,本文采用模拟浏览的方式,以事件驱动聚焦爬虫,监听页面内容的不断变化,获取异步传输的内容.在此基础上,本文提出并构建了基于协议驱动与事件驱动综合的聚焦爬虫框架,以保证在传统聚焦爬虫正常爬行的前提下,对页面中的Ajax内容采用事件驱动爬行。实验证明该方法是有效的.