Deep Web分类搜索引擎关键技术研究

来源 :苏州大学 | 被引量 : 0次 | 上传用户：zbwang12315

【摘要】

：

随着World Wide Web(WWW)的飞速发展,整个Web信息已经被各种各样可搜索的在线数据库所深化。这些信息被隐藏在Web查询接口之后,由站点后台数据库动态产生,而传统搜索引擎受技

【作者】

：

高岭

【机构】

：

苏州大学

【出处】

：

苏州大学

【发表日期】

：

2007年期

【关键词】

：

深网搜索引擎聚焦爬虫 Web数据库内容摘要数据源分类

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

随着World Wide Web(WWW)的飞速发展,整个Web信息已经被各种各样可搜索的在线数据库所深化。这些信息被隐藏在Web查询接口之后,由站点后台数据库动态产生,而传统搜索引擎受技术限制无法对它们进行索引,我们称这类信息为Deep Web。Deep Web信息获取至今仍然是一个新兴的研究领域,也受到越来越多研究人员的重视。为了方便用户获取使用某领域的Deep Web信息,本文提出了一个Deep Web分类搜索引擎的系统架构,依据这个系统架构对Deep Web分类搜索引擎中若干关键问题进行了分析研究,并提出了相关的算法和模型。本文主要研究的工作包括:(1)对中国Deep Web资源的规模、分布、结构等进行了调查研究。(2)针对传统搜索引擎爬虫程序在Deep Web领域的缺陷,设计了一个面向Deep Web的聚焦爬虫,并提出了Deep Web查询接口的判定方法。(3)采用一种高效的Web数据库内容获取算法,对Web数据库内容进行采样,并对采样得到的页面进行分析,去除了无关信息,最终得到Web数据库的内容摘要。(4)依据雅虎的分类目录,提出了一种将Deep Web站点接口页面与数据库内容摘要相结合的方法,对Deep Web资源进行分类。本文最后设计和实现了一个针对中文的Deep Web分类搜索引擎原型系统Deep Searcher,并对文中提出的算法进行了实验和分析。

其他文献

基于MVC模式和数据驱动的银行业务开发平台研究与应用

本文以研究和实现一个易于扩展和维护的具有快速部署能力的银行综合业务系统开发平台为主要目的,总结了平台中的核心技术-MVC模式重用和数据驱动技术,重点介绍了基于设计模式

学位

模式重用数据驱动交易字典平台

聚类分析和离群点识别技术研究及其应用

离群点识别和聚类分析是数据挖掘研究的重要方面,基于离群点分析的各种数据挖掘算法的研究已经成为研究热门方向。但是目前大多数的离群点分析算法只是针对于静态数据集的操

学位

离群点增量式数据挖掘局部密度社保审计

垂直搜索引擎主题特征提取及相关度算法研究

搜索引擎是人们获取海量网络信息的首要工具,是网络研究和应用的关键内容。目前随着Internet信息的爆炸增长以及信息多元化的发展,快速有效地获取需要的相关信息变得越来越困

学位

垂直搜索引擎主题特征提取相关度IVSMV-Page-Rank分块主题爬行

基于神经网络的入侵检测系统的研究与实现

计算机技术的迅猛发展,给人们的工作和生活带来了前所未有的便利和效率,网络技术的普及又使其如虎添翼,走进社会生活的各个领域,成为人类社会不可或缺的一部分。然而网络攻击

学位

入侵检测IDS神经网络BP

分布式计算环境下海量RDF数据的skyline查询研究

随着语义网的提出和相关技术的发展与成熟,该领域吸引了学术界、政府部门和工业界的广泛关注和积极参与。关联数据作为语义网的最佳实践,越来越成为研究的热点。资源描述框架

学位

Skyline查询RDF数据K-支配Skyline查询MapReduce框架云计算

基于压缩感知的无线传感器网络数据收集算法研究

无线传感器网络(WSNs)作为物联网的重要组成部分之一,已经被广泛地应用于环境监控、医疗检测和军事部署等相关领域。然而传感器节点存在诸多的资源限制,这给wSNs地大规模部署

学位

无线传感器网络压缩感知生成树节能负载均衡

复杂背景下基于序列图像的人体识别与跟踪

序列图像的运动分析是诸多学术领域，如计算机视觉、人工智能、模式识别等广泛关注的一个课题，指从静态序列图像中获得关于运动物体以及运动本身的特征，包括运动目标是否存在，运动

学位

序列图像运动分析背景差分CamShift目标识别

带假结的RNA二级结构预测算法研究

随着生物信息学的发展和对RNA研究的深入,RNA已经不仅是从DNA到蛋白质的信息传递者,在RNA病毒和某些动物细胞中,RNA还是遗传信息的载体,控制蛋白质的合成,甚至在某些癌细胞和

学位

RNA二级结构假结遗传算法快速动态权重匹配算法

基于税务系统的数据挖掘

税务机关是关系国计民生的一个重要的管理机构,它与企业的发展息息相关,每一个企业发生的业务都会在税务系统数据库中留下记录。因此税务系统数据库中积累了大量的企业数据,

学位

税务预警分析数据挖掘OLAM

僵尸网络及其防御研究

自2004年以来，一种新型的网络攻击平台引起了人们的重视，它就是僵尸网络。一个僵尸网络控制的计算机数量众多，并且被控制计算机分布于不同的网络。它可以造成包括拒绝服务攻击、

学位

僵尸网络DDoS自相似性历史信任数据

Deep Web分类搜索引擎关键技术研究

其他学术论文