【摘 要】
:
随着互联网的飞速发展,Web中的信息规模日益扩大,为人们提供了各种各样可利用的信息。其中大量的信息是存储在Web数据库当中,只能通过网页中的查询接口才能访问。改变了通过
论文部分内容阅读
随着互联网的飞速发展,Web中的信息规模日益扩大,为人们提供了各种各样可利用的信息。其中大量的信息是存储在Web数据库当中,只能通过网页中的查询接口才能访问。改变了通过链接来访问网页的方式,使得传统的搜索引擎无法获取,因而被称为Deep Web。高速增长的Deep Web信息已成为人们进行信息获取的一个重要来源,然而Deep Web数据的异构性和动态性,为大规模Deep Web数据集成带来巨大的挑战。通过获取Deep Web的数据,在本地集成Web数据库的重要性正在逐渐凸显。本文针对Deep Web数据获取的相关技术进行深入研究,并提出了相应的算法和模型。本文的主要研究工作如下:(1)研究了Deep Web站点和查询接口的特点,在表单的属性选择方面,提出了一种基于属性相关度的属性组合有效性的计算方法。(2)分析了查询接口中属性的特点,提出了通过机器学习的方法识别查询接口中每个特定的文本属性。(3)通过对属性的分类,针对不同类型的属性采用不同方法产生查询词。对于普通的文本属性,提出了通过抽取查询结果页中的相应内容,并通过适应性策略来选取合适的关键词作为查询词的方法。对于特定的文本属性,使用人工建立知识库的方法。(4)分析了Deep Web数据源中网页的更新特点,通过泊松模型对网页更新事件建立模型,增量获取Deep Web数据。并设计了增量获取Deep Web数据的爬虫系统结构。此外,本文还对文中提出的方法和技术进行了实验,通过对实验结果的分析进一步验证了本文提出的方法是有效的。
其他文献
网格计算是近年来在国际上兴起的一种新技术。网格作为“第三代Internet",是把整个互联网整合成一台巨大的超级计算机,其根本目的是实现非平凡的资源共享和协同工作,消除信息
目标检测是计算机视觉的一项基础研究,其主要目的是对图像或视频中的物体进行检测与识别,从而实现对场景内容的理解。随着深度学习的发展,这项技术在近几年取得了巨大的进步。然
可扩展标记语言XML以其易用性、跨平台、良好的数据存储格式、高度结构化以及优越的网络传输等特性在计算机信息技术领域迅速发展,并作为Web服务开发的基础和标准广泛应用。
人类基因草图完成后,确定基因和它们的调控网络成为一个具有挑战性的任务。启动子是基因表达调控的重要元件,在基因识别中具有关键作用。人类启动子识别技术已成为目前的热点
基于生物体信息处理机制的智能模型或算法的研究是人工智能领域的一个重要方向,体现了现代科学研究进展中多学科、多领域的交叉融合、互相促进的特点。生物机体内主要有三大
随着网络应用的日新月异,网络用户对网络带宽的需求日益增多。如果不对内网带宽做合理有效的规划则很容易导致网络拥塞,从而影响一些内网重要用户的通信质量。有鉴于此,本文
克隆选择算法是人工免疫系统领域中的重要算法之一。作为克隆选择算法中重要的算子,元动力学算子很少受到关注。另一方面,进化非选择算法是基于生物免疫进化机制和免疫非选择
随着计算机的发展,图像处理技术得到了极大的重视和长足的发展,其已经迅速渗透到人类生活和社会发展的方方面面,使人们传统的生产和生活方式发生了巨大的变化。图像处理和计
网络信息时代,远程访问为人们办公、学习、娱乐等提供了一种方便、快捷的获取资源的方式。在一个公开的网络环境,服务器上的资源希望只对网络中的合法用户开放,并能阻止非法
在软件生命周期里,软件重构是提高软件内部质量的关键技术,而重构定位是重构首要解决的问题。传统的重构定位方法都是基于“坏味道”的主观判断,缺少自动化重构定位的工具支