基于搜索引擎的Deep Web数据源发现技术

来源 :计算机技术与发展 | 被引量 : 0次 | 上传用户：suxiaohua

【摘要】

：

随着Web数据库的广泛应用，Web正在不断“深化”。传统搜索引擎只能检索浅层网络，却不能直接索引到深层网络（Deep Web）的资源。为了有效地利用Deep Web资源，必须要对Deep Web数据进

【作者】

：

李文骏崔志明

【机构】

：

苏州大学智能信息处理及应用研究所

【出处】

：

计算机技术与发展

【发表日期】

：

2008年8期

【关键词】

：

搜索引擎 DEEP WEB 网页表单查询扩展 search engine Deep Web HTML form query expansion

【基金项目】

：

网家自然科学基金项目（60673092）,2005年度教育部科研重点项目（205059）,教育部“高校博士学科点科研基金项目”（20040285016）,江苏省高技术研究计划项目（BG2005019）

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

随着Web数据库的广泛应用，Web正在不断“深化”。传统搜索引擎只能检索浅层网络，却不能直接索引到深层网络（Deep Web）的资源。为了有效地利用Deep Web资源，必须要对Deep Web数据进行大规模集成。其中，数据源发现是整合Deep Web资源的首要工作，能否高效地发现Deep Web站点是Deep Web数据获取的关键。提出了一种基于传统搜索引擎的Deep Web数据源发现方法，该方法通过分析返回结果来扩展查询，从而进一步提高了数据源发现的效率。实验证明该方法能得到较好的结果。

其他文献

主题Web挖掘研究

网络已经成为人们获取知识的一个重要途径。然而面对巨大的Web资源库，用户若想获得所需要信息已不再是一件简单的事情。通用搜索引擎返回大量的无关信息．不能满足用户的特定信

期刊

搜索引擎信息检索Web主题挖掘聚焦爬虫本体论search engine information retrieval topic Web minin

一种基于髓机Hough变换圆检测的改进算法

介绍了一种基于随机Hough变换（RHT）的圆检测的改进算法。该算法利用梯度方向信息来确定采样的三点是否进行累积，然后再利用确定候选圆范围的方法来缩小所要搜索的像素点的范围。

期刊

随机HOUGH变换圆检测梯度方向信息窗口randomized Hough transform circle detectiongradient di

支持CRM分析的数据仓库多维启动模型

CRM是一种整合了知识管理、数据挖掘及数据仓库技术的商业策略，旨在支持制定决策来保留长期有利的客户关系。分析了CRM中数据仓库的设计问题，提出一种支持CRM分析的强劲的多维

期刊

数据仓库CRM多维启动data warehouse CRM multidimentional starter

一种基于XML的个性化的资源需求描述机制

在基于因特网的教育资源网格体系结构和服务理论研究中，提出了教育资源网格中一种基于XML的个性化文件资源需求描述机制。需求者不仅可以更加准确地表达自己对各类文件资源的

期刊

XML教育资源网格资源调度XML education resource grid resource scheduling

时空数据库索引方法研究

时空数据库作为数据库研究领域中的一个重要分支，经过近十年的发展，在时空数据模型、时空查询优化与索引和时空本体论等方面取得了许多成果。现实世界中的许多实体都具有空间特

期刊

时空索引R—tree时态事件spatiotemporal access methods R- trees temporal events

基于领域知识的预警规则发现研究

预警有助于及时预防和解决隐患，具有重要的应用价值，受到了广泛的关注。提出了一种新的预警机制，以领域相关的预警知识为基础构建预警系统，重点研究了以实际数据为资源，基于背景领

期刊

预警数据挖掘领域知识成绩分析early warning data mining domain knowledge achievement anal

基于退火进化算法的机器人足球策略研究

针对一般遗传算法存在的一个显著的问题：“早熟收敛”与“快速收敛”之间的矛盾，解决早熟收敛的基本思想就是保持群体中个体的多样性，而模拟退火接受准则（即Metropolis准则）可以解

期刊

遗传算法模拟退火足球机器人METROPOLISgenetic algorithmsimulated annealingsoccer robotMe

Z语言与软件体系结构风格的形式化

软件体系结构风格是软件设计人员在长期开发某种类型软件经验的基础上总结出来的适合于构建某一类软件的模型，也称为构建模式。形式化则是一种基于数学的严谨的描述方式和方法

期刊

软件体系结构管道-过滤器Z语言形式化software architecture pipe - filters Z language formali

基于超长指令字的定点DCT算法研究

针对浮点转换为定点运算的精度问题证明了一个定理和一个推论，给出了一种在可以同时执行多个指令操作的DSP中估计算法实际运行时间的方法，并提出了一种新的适合于VLIW的定点8&#

期刊

超长指令字离散余弦变换快速算法并行算法视频压缩DSPVLIWDCT fast algorithmparallel algorithmvide

基于分布式的语义Web服务发现新模型

为了快速、准确和高效地发现目标服务，提出了一种基于分布式和语义描述的Web服务发现新模型。该模型将领域分类的思想与P2P网络相结合，构造出一种基于P2P的双层拓扑结构，并采用

期刊

P2P语义WEB服务服务发现搜索算法P2P semantic Web service service discovery search algor

基于搜索引擎的Deep Web数据源发现技术

与本文相关的学术论文