Deep Web分类搜索引擎关键技术研究

来源 :苏州大学 | 被引量 : 0次 | 上传用户:zbwang12315
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着World Wide Web(WWW)的飞速发展,整个Web信息已经被各种各样可搜索的在线数据库所深化。这些信息被隐藏在Web查询接口之后,由站点后台数据库动态产生,而传统搜索引擎受技术限制无法对它们进行索引,我们称这类信息为Deep Web。Deep Web信息获取至今仍然是一个新兴的研究领域,也受到越来越多研究人员的重视。为了方便用户获取使用某领域的Deep Web信息,本文提出了一个Deep Web分类搜索引擎的系统架构,依据这个系统架构对Deep Web分类搜索引擎中若干关键问题进行了分析研究,并提出了相关的算法和模型。本文主要研究的工作包括:(1)对中国Deep Web资源的规模、分布、结构等进行了调查研究。(2)针对传统搜索引擎爬虫程序在Deep Web领域的缺陷,设计了一个面向Deep Web的聚焦爬虫,并提出了Deep Web查询接口的判定方法。(3)采用一种高效的Web数据库内容获取算法,对Web数据库内容进行采样,并对采样得到的页面进行分析,去除了无关信息,最终得到Web数据库的内容摘要。(4)依据雅虎的分类目录,提出了一种将Deep Web站点接口页面与数据库内容摘要相结合的方法,对Deep Web资源进行分类。本文最后设计和实现了一个针对中文的Deep Web分类搜索引擎原型系统Deep Searcher,并对文中提出的算法进行了实验和分析。
其他文献
本文以研究和实现一个易于扩展和维护的具有快速部署能力的银行综合业务系统开发平台为主要目的,总结了平台中的核心技术-MVC模式重用和数据驱动技术,重点介绍了基于设计模式
离群点识别和聚类分析是数据挖掘研究的重要方面,基于离群点分析的各种数据挖掘算法的研究已经成为研究热门方向。但是目前大多数的离群点分析算法只是针对于静态数据集的操
搜索引擎是人们获取海量网络信息的首要工具,是网络研究和应用的关键内容。目前随着Internet信息的爆炸增长以及信息多元化的发展,快速有效地获取需要的相关信息变得越来越困
计算机技术的迅猛发展,给人们的工作和生活带来了前所未有的便利和效率,网络技术的普及又使其如虎添翼,走进社会生活的各个领域,成为人类社会不可或缺的一部分。然而网络攻击
随着语义网的提出和相关技术的发展与成熟,该领域吸引了学术界、政府部门和工业界的广泛关注和积极参与。关联数据作为语义网的最佳实践,越来越成为研究的热点。资源描述框架
无线传感器网络(WSNs)作为物联网的重要组成部分之一,已经被广泛地应用于环境监控、医疗检测和军事部署等相关领域。然而传感器节点存在诸多的资源限制,这给wSNs地大规模部署
序列图像的运动分析是诸多学术领域,如计算机视觉、人工智能、模式识别等广泛关注的一个课题,指从静态序列图像中获得关于运动物体以及运动本身的特征,包括运动目标是否存在,运动
随着生物信息学的发展和对RNA研究的深入,RNA已经不仅是从DNA到蛋白质的信息传递者,在RNA病毒和某些动物细胞中,RNA还是遗传信息的载体,控制蛋白质的合成,甚至在某些癌细胞和
税务机关是关系国计民生的一个重要的管理机构,它与企业的发展息息相关,每一个企业发生的业务都会在税务系统数据库中留下记录。因此税务系统数据库中积累了大量的企业数据,
自2004年以来,一种新型的网络攻击平台引起了人们的重视,它就是僵尸网络。一个僵尸网络控制的计算机数量众多,并且被控制计算机分布于不同的网络。它可以造成包括拒绝服务攻击、