Deep Web爬虫研究与设计

来源 :清华大学学报(自然科学版) | 被引量 : 0次 | 上传用户：jeeryf

【摘要】

：

随着W eb的发展,越来越多的数据可以通过表单提交来获取,这些表单提交所产生信息是由D eep W eb后台数据库动态产生的。在这种情况下,信息集成就更加需要W eb爬虫来自动获取

【作者】

：

郑冬冬赵朋朋崔志明

【机构】

：

苏州大学计算机科学与技术系,苏州大学计算机科学与技术系,苏州大学计算机科学与技术系苏州215006,苏州215006,苏州215006

【出处】

：

清华大学学报(自然科学版)

【发表日期】

：

2005年S1期

【关键词】

：

DeepWeb 导航模式领域本体知识库爬虫

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

随着W eb的发展,越来越多的数据可以通过表单提交来获取,这些表单提交所产生信息是由D eep W eb后台数据库动态产生的。在这种情况下,信息集成就更加需要W eb爬虫来自动获取这些页面以进一步地处理数据。为了帮助用户完成这样的任务,提出一种用于搜集D eep W eb页面的爬虫的设计方法。此方法使用一个预定义的领域本体知识库来识别这些页面的内容,同时利用一些来自W eb站点的导航模式来识别自动填写表单时所需进行的路径导航。通过对来自不同领域的D eep W eb站点的大量实验,验证了此方法是非常有效的。 As Web grows, more and more data is available through form submissions, and the information submitted by these forms is dynamically generated by the Data Web back-end database. In this case, W eb crawlers are even more needed for information integration to automatically acquire these pages to process the data further. To help users accomplish this task, a design methodology for crawlers that collect D ebbs Web pages is proposed. This method uses a predefined domain ontology repository to identify the contents of these pages and utilizes some navigation patterns from the Web site to identify the path navigation needed to auto-complete the form. Through a large number of experiments from D eep W eb sites in different fields, this method is proved to be very effective.

其他文献

速度、流量与道路通行能力分析

车速与流量显然存在依赖关系,很多学者对这一问题进行了大量的研究,得到了不同的速度—流量经验模型。实际上,车速与流量的关系是一理论问题而非试验问题。借助于感觉—反应

期刊

感觉—反应时间车速流量极限流量

高压输电线路电力塔监测系统设计

本文根据高压输电线路和电力塔的实际环境及位置,设计实时在线监测系统,避免常规巡检手段无法第一时间发现隐患的弊端。基于最新的无线传输技术ZigBee设计无线传感系统,建立

期刊

电力塔监测ZigBee无线传输

建筑工程概预算存在的问题及对策

建筑工程概预算在工程中起着至关重要的作用。然而,我国现阶段建筑工程概预算却存在着工程概预算编制粗糙、项目招投标不够规范,项目管理相对混乱和施工图纸实用性差的问题,

期刊

建筑工程工程概预算工程造价

物理学领域中若干非线性发展方程的解析研究

非线性现象是近些年来物理科学中的研究热点。在光纤,流体力学以及玻色-爱因斯坦凝聚态等领域中,许多非线性现象分析可以通过研究相对应的非线性发展方程来实现,比如说非线性

学位

非线性Schr?dinger类方程孤子畸形波Hirota方法Kadomtsev-Petviashvili方程族约化

浅谈主题班会对优化班级管理的作用

主题班会是班级管理中的一种重要组成部分,学生通过参与主题班会围绕主题,各展其能,一方面可以锻炼发现问题和处理问题的能力,另一方面也能提高自身文化素养和综合素质,在受

期刊

主题班会班级管理

玉米田封闭除草剂的种类及对葡萄的危害

<正>近年来为了控制夏玉米苗期草害,全国各地的植保部门都在提倡使用土壤封闭除草剂除草,由于效果显著封闭除草剂使用面积逐年扩大,在有效控制玉米田苗期草害的同时,也对其他

期刊

玉米田乙草胺除草剂一年生禾本科杂草扑草津

烟草企业文化建设研究

新世纪初期,烟草行业面临市场竞争和内部改革的双重压力,中国烟草直面跨国烟草巨头的激烈竞争。国内买方市场全面形成,控烟运动日趋高涨,烟草行业改革持续推进。中国烟草要在

期刊

企业文化和谐烟草以人为本敬文化

双手作业分析在包装作业改善中的应用

双手作业分析是工作研究中方法研究的重要组成部分,提供了改善人机状况和提高生产效率的基本原理和工具。本文应用双手作业分析的方法和时间测定的结果,深入分析了包装作业过

期刊

作业分析包装改善工业工程

打通四道关口推进智慧法院建设

近年来，人民法院信息化建设取得显著成果，但距离实现真正的“智慧”，还需突破原始信息的“格式化”改造、数据平台的互联互通、用户使用习惯的培养、思维观念的转变四道关口。$$

报纸

基于虚拟样机的复杂产品协同设计与仿真关键技术研究

主要研究并行工程环境下复杂产品虚拟样机协同设计与仿真的体系结构及其关键技术。提出虚拟样机协同设计与仿真系统的体系结构与整体解决方案,研究面向虚拟样机的数字化多领

期刊

并行工程虚拟样机协同设计协同仿真过程管理

Deep Web爬虫研究与设计

与本文相关的学术论文