论文部分内容阅读
随着网络技术的日益成熟,Web的飞速发展使其成为了一个浩瀚而复杂的巨大数据源。按照数据蕴藏的深度,整个Web可以进一步划分为Surface Web和Deep Web。Deep Web主要有Web中可在线访问的Web数据库构成。目前Deep Web蕴含的信息量已经远远超过了Surface Web,更重要的是,Deep Web数据的结构化程度更高,因此比Surface Web具有更高的访问价值。由于DeepWeb中的信息只能通过Web数据库提供的查询接口访问,使得传统的搜索引擎(比如Google、Yahoo等)无法有效地索引。面对巨大庞杂的Deep Web,如何有效地访问和利用Deep Web中海量的数据已经成为了一个数据库领域的很重要的研究课题。 本论文以Deep Web数据集成系统为目标应用,面向Deep Web中异构的海量数据,针对Deep Web数据集成中的若干关键问题,所提出的创新性的工作主要包括以下几个方面。 基于视觉的Deep Web数据抽取:针对Deep Web页面日趋复杂且结构化程度低的特点,利用Deep Web页面一般的视觉特征,提出一种基于视觉的DeepWeb数据抽取方法,包括数据记录的抽取和数据项的抽取两个部分,该工作解决已有工作依赖于网页编写语言的缺陷; 基于图模型的Web数据库采样:由于Web数据库的规模性以及高度动态性使得Web数据库选择成为Deep Web数据集成中的一个关键问题,提出基于图模型的Web数据库采样方法,利用图浏览的方式,该方法通过提交一系列自动生成的查询可以从Web数据库中获得近似随机的样本,这样通过对样本的分析可以为用户的查询选择最合适的Web数据库; 基于属性相关性的Web数据库大小的估计:Web数据库的大小是Web数据库选择的一个主要标准,针对由于Web数据库的高度自治性而无法直接获取一个Web数据库大小的问题,提出了通过分析查询接口中属性之间的相关性,以提交查询考察返回查询结果数量的方式对Web数据库大小进行估计的方法; 领域层次的重复实体识别:针对Deep Web数据集成中Web数据库数量大且数据冗余度高的问题,提出领域层次的重复实体识别方法,该方法通过迭代训练的方式可以获得领域层次的匹配器,从而避免了传统方法在Deep Web环境下造成匹配器数量过多且难以维护的缺陷。 本文对于提出的各种模型和算法都进行了相关实验分析,同时与相关主流方法进行了性能比较。实验结果表明,本文提出的方法可以有效地解决DeepWeb数据集成中的关键问题,并为Deep Web数据集成系统提供了可行的解决方案。