Deep Web爬虫研究与设计

来源 :清华大学学报(自然科学版) | 被引量 : 0次 | 上传用户:jeeryf
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着W eb的发展,越来越多的数据可以通过表单提交来获取,这些表单提交所产生信息是由D eep W eb后台数据库动态产生的。在这种情况下,信息集成就更加需要W eb爬虫来自动获取这些页面以进一步地处理数据。为了帮助用户完成这样的任务,提出一种用于搜集D eep W eb页面的爬虫的设计方法。此方法使用一个预定义的领域本体知识库来识别这些页面的内容,同时利用一些来自W eb站点的导航模式来识别自动填写表单时所需进行的路径导航。通过对来自不同领域的D eep W eb站点的大量实验,验证了此方法是非常有效的。 As Web grows, more and more data is available through form submissions, and the information submitted by these forms is dynamically generated by the Data Web back-end database. In this case, W eb crawlers are even more needed for information integration to automatically acquire these pages to process the data further. To help users accomplish this task, a design methodology for crawlers that collect D ebbs Web pages is proposed. This method uses a predefined domain ontology repository to identify the contents of these pages and utilizes some navigation patterns from the Web site to identify the path navigation needed to auto-complete the form. Through a large number of experiments from D eep W eb sites in different fields, this method is proved to be very effective.
其他文献
车速与流量显然存在依赖关系,很多学者对这一问题进行了大量的研究,得到了不同的速度—流量经验模型。实际上,车速与流量的关系是一理论问题而非试验问题。借助于感觉—反应
本文根据高压输电线路和电力塔的实际环境及位置,设计实时在线监测系统,避免常规巡检手段无法第一时间发现隐患的弊端。基于最新的无线传输技术ZigBee设计无线传感系统,建立
建筑工程概预算在工程中起着至关重要的作用。然而,我国现阶段建筑工程概预算却存在着工程概预算编制粗糙、项目招投标不够规范,项目管理相对混乱和施工图纸实用性差的问题,
非线性现象是近些年来物理科学中的研究热点。在光纤,流体力学以及玻色-爱因斯坦凝聚态等领域中,许多非线性现象分析可以通过研究相对应的非线性发展方程来实现,比如说非线性
主题班会是班级管理中的一种重要组成部分,学生通过参与主题班会围绕主题,各展其能,一方面可以锻炼发现问题和处理问题的能力,另一方面也能提高自身文化素养和综合素质,在受
<正>近年来为了控制夏玉米苗期草害,全国各地的植保部门都在提倡使用土壤封闭除草剂除草,由于效果显著封闭除草剂使用面积逐年扩大,在有效控制玉米田苗期草害的同时,也对其他
新世纪初期,烟草行业面临市场竞争和内部改革的双重压力,中国烟草直面跨国烟草巨头的激烈竞争。国内买方市场全面形成,控烟运动日趋高涨,烟草行业改革持续推进。中国烟草要在
双手作业分析是工作研究中方法研究的重要组成部分,提供了改善人机状况和提高生产效率的基本原理和工具。本文应用双手作业分析的方法和时间测定的结果,深入分析了包装作业过
近年来,人民法院信息化建设取得显著成果,但距离实现真正的“智慧”,还需突破原始信息的“格式化”改造、数据平台的互联互通、用户使用习惯的培养、思维观念的转变四道关口。$$
报纸
主要研究并行工程环境下复杂产品虚拟样机协同设计与仿真的体系结构及其关键技术。提出虚拟样机协同设计与仿真系统的体系结构与整体解决方案,研究面向虚拟样机的数字化多领