基于协议驱动与事件驱动的综合聚焦爬虫研究

来源 :2009年中国信息技术应用学术研讨会 | 被引量 : 0次 | 上传用户:wonghost
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
Ajax技术随着Web2.0应用的流行而日趋普及.由于其异步传输特性,传统聚焦爬虫往往无法得到异步加载的页面内容.针对应用了异步传输和JavaScript技术的新闻网站及评论,本文采用模拟浏览的方式,以事件驱动聚焦爬虫,监听页面内容的不断变化,获取异步传输的内容.在此基础上,本文提出并构建了基于协议驱动与事件驱动综合的聚焦爬虫框架,以保证在传统聚焦爬虫正常爬行的前提下,对页面中的Ajax内容采用事件驱动爬行。实验证明该方法是有效的.
其他文献
间歇化工过程随机调度的建模和求解十分复杂,本文将确定性调度和概率统计理论相结合提出了一种新的间歇化工过程随机调度的模型和评价体系,将随机变量离散化降低了问题求解的复
TSP问题是一个典型的NP难度的组合优化问题。在求解TSP问题时,Inver-Over算子具有强大的搜索全局最优解的能力,而交换启发交叉算子能加快算法的收敛速度.本文在Inver-Over算子和
自动摘要是智能信息处理的重要内容,本文提出一种基于信息抽取的自动摘要抽取方案.在该方案中,自动摘要综合考虑词频、词性标注、词语分布和修辞结构,对文档的主题、方法、结论等
现代战争要使导弹发挥其最大效能,需要选择一种有效的导弹火力分配方法。针对标准遗传算法在解决导弹火力分配问题中存在的不能以概率1收敛及进化时出现退化等情况,提出并实现
会议
在渔业养殖中,养殖方式的不同可对其所在生态系统产生很大影响,本文根据平衡系统及其最佳养殖物种数量建立了自然生态系统、传统养殖模式系统、养殖箱组合混养系统的相关数学模
软件复用被认为是解决软件危机的有效方法,核心是建立可复用软件构件库系统。本文基于刻面分类方法在Web应用开发领域中建立软件构件库,采用基于角色的访问控制技术,完成了构件
会议
ve To analyze the attitude of family planning staff on providing contracep tives to unmarried youth ve To analyze the attitude of family planning staff on prov
针对BP神经网络在短时交通流预测易陷入局部最优的问题,设计了一种混沌免疫神经网络的短时交通流预测模型,并利用该模型对实际采集的城市道路交通流数据进行仿真研究.预测结果表
在移动计算系统中,规范和管理衡量用户对所接受服务满意程度的OoS(Quality of Service)是很重要的,特别是对于多媒体应用的支持. 本文首先简要地描述了Qos及其管理的概念,然后详
针对当前基于B/S模式的报表系统的开发设计现状和核心问题,提出设计实现一个通用报袁系统开发平台.核心思想是根据用户需求定制生成报表模板,同时定义了模板解释器分析解释报表