Deep Web数据集成中的关键技术研究

来源 :中国人民大学 | 被引量 : 0次 | 上传用户:jzl_root2
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着网络技术的日益成熟,Web的飞速发展使其成为了一个浩瀚而复杂的巨大数据源。按照数据蕴藏的深度,整个Web可以进一步划分为Surface Web和Deep Web。Deep Web主要有Web中可在线访问的Web数据库构成。目前Deep Web蕴含的信息量已经远远超过了Surface Web,更重要的是,Deep Web数据的结构化程度更高,因此比Surface Web具有更高的访问价值。由于DeepWeb中的信息只能通过Web数据库提供的查询接口访问,使得传统的搜索引擎(比如Google、Yahoo等)无法有效地索引。面对巨大庞杂的Deep Web,如何有效地访问和利用Deep Web中海量的数据已经成为了一个数据库领域的很重要的研究课题。  本论文以Deep Web数据集成系统为目标应用,面向Deep Web中异构的海量数据,针对Deep Web数据集成中的若干关键问题,所提出的创新性的工作主要包括以下几个方面。  基于视觉的Deep Web数据抽取:针对Deep Web页面日趋复杂且结构化程度低的特点,利用Deep Web页面一般的视觉特征,提出一种基于视觉的DeepWeb数据抽取方法,包括数据记录的抽取和数据项的抽取两个部分,该工作解决已有工作依赖于网页编写语言的缺陷;  基于图模型的Web数据库采样:由于Web数据库的规模性以及高度动态性使得Web数据库选择成为Deep Web数据集成中的一个关键问题,提出基于图模型的Web数据库采样方法,利用图浏览的方式,该方法通过提交一系列自动生成的查询可以从Web数据库中获得近似随机的样本,这样通过对样本的分析可以为用户的查询选择最合适的Web数据库;  基于属性相关性的Web数据库大小的估计:Web数据库的大小是Web数据库选择的一个主要标准,针对由于Web数据库的高度自治性而无法直接获取一个Web数据库大小的问题,提出了通过分析查询接口中属性之间的相关性,以提交查询考察返回查询结果数量的方式对Web数据库大小进行估计的方法;  领域层次的重复实体识别:针对Deep Web数据集成中Web数据库数量大且数据冗余度高的问题,提出领域层次的重复实体识别方法,该方法通过迭代训练的方式可以获得领域层次的匹配器,从而避免了传统方法在Deep Web环境下造成匹配器数量过多且难以维护的缺陷。  本文对于提出的各种模型和算法都进行了相关实验分析,同时与相关主流方法进行了性能比较。实验结果表明,本文提出的方法可以有效地解决DeepWeb数据集成中的关键问题,并为Deep Web数据集成系统提供了可行的解决方案。
其他文献
资源空间模型是面向互联网络环境的基于正交分类语义的资源组织模型。它采用多维资源空间的方式组织资源,支持有效的资源管理。本论文的创新点主要包括:   1.提出资源空间模
WinWin项目管理理论提出项目成功必须让所有的涉众达到共赢。如何让涉众达到共赢是需求协商需要解决的问题。实践证明Easywinwin,ARENA,ARENA-M这些基于WinWin的协商工具在获取
基于内容的视频检索技术在过去十几年取得了很大进展,但是由于视频内容底层特征与高层语义之间存在“语义鸿沟”,视频内容无法有效地映射到用户的查询语义。交互式视频检索技术
随着大量数据以XML格式保存,针对XML文档的关键词检索技术已经成为信息检索和数据库等相关领域的研究热点。本文通过研究XML文档树的特点以及杜威ID的相关性质,提出了求解SLCA
真空定向结晶铸造炉是针对特有材料结合特有工艺完成定向结晶一次成型的铸造过程的生产设备。由于是针对特有工艺过程,操作员要在操作台上操作生产过程,包括温度控制时人工整
随着互联网和计算机应用的的迅猛发展,软件的安全问题已经成为计算机系统安全的一个至关重要的问题。如今的软件越来越复杂,不可避免包含着程序漏洞。程序漏洞攻击威胁日益严重
近年来,图形用户接口(GUI)技术广为流行,它在给软件的开发和使用带来巨大方便的同时,也给软件的测试带来了极大的挑战。GUI应用程序通常由大量窗口、按钮、文本框等控件组成,每个
近二十年来,由于三维数据获取设备的发展与复杂拓扑结构的曲面造型日益普及,离散网格曲面逐渐成为一种重要的几何表示和对象建模方法。离散网格的表示、处理和几何造型技术也成
领域构件的接口名称不仅仅只是一个使其唯一的标识符,其中往往蕴含了相关领域中的语义信息。本文假设构件的设计者在对构件接口进行命名时,会尽量包含接口在领域中的语义信息,这
随着信息化程度的提高,信息的生产越来越快,数据量巨增,如何快速有效地对大规模数据进行聚类分析处理成为数据挖掘领域中的一个研究热点。 并行聚类算法将并行计算方法与