搜索引擎中基于状态的Ajax动态网页提取研究

来源 :计算机应用与软件 | 被引量 : 11次 | 上传用户:sakurabb1
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
Ajax(Asynchronous JavaScript and XML)动态网页的提取是目前搜索引擎研究的热点和难点。在分析已有Ajax动态网页提取方法的局限后,针对使用最广泛的基于DOM(Document Object Model)树的提取方法存在空间浪费和信息丢失的问题,引入状态S的形式化定义,提出基于状态的页面元素、事件与函数绑定关系的提取算法AjaxCrawling,并说明算法提取得到的资源库在搜索引擎中的有效性。通过比较实验,得出AjaxCrawling具有保证提取到的信息的完整性和节约
其他文献
通过TEB雾化喷嘴制造流化床团聚结构,利用层叠筛分方法对原始颗粒、成核聚团、黏结聚团、糊状聚团4种结构加以尺度区分,成功地实现了不同团聚阶段的分区域辨识。实验选取团聚
设计煤质数据是现代煤化工项目中重要的设计基础,直接影响到项目能否稳定运行。本文根据神华煤化工项目的建设经验,提出了原料煤设计煤质确定的程序方法。目前煤化工项目常用
微波消解作为样品预处理的新技术已受到普遍关注。概述了微波消解法的原理、特点、消化体系的选择及其在环境分析中的应用(包括金属元素分析、非金属元素分析、COD测定等)进展
以天然大豆卵磷脂为主要材料,胆固醇、近红外量子点CdSeTe和超顺磁性Fe3O4粒子为附加材料,DOX为包封的药物,制备了多功能复合载药脂质体。通过正交试验选取影响复合载药脂质
近年来,各保险公司对信息技术的投入越来越大,保险公司的信息化程度也越来越高.信息化的蓬勃发展,促进了保险公司经营管理水平的提高,特别是在提高保险公司集中管控能力、执
时代的进步和高校实现跨越式发展,都要求高等院校建设一支高素质的管理干部队伍,本文从高校管理干部的素质要求、培养措施、选拔和使用等方面作了探讨.高校管理干部要具有良