论文部分内容阅读
由于Deep Web数据规模巨大,数据质量高而且Web数据库数量和规模增长迅速,人们从中获取信息的需求日益强烈。然而Web数据库动态性高,异构性强,及隐藏于网页后的特点为人们从中获取信息带来了巨大挑战。由于Deep Web的数据隐藏在Web数据库提供的查询接口后面,为了实现对Deep Web的查询,需要通过向Web数据库提供的查询接口提交查询请求然后浏览结果页面来实现。对于领域内大量Deep Web的访问,通常采用集成的方式,即在建立集成的查询接口及其与Web数据库接口间的映射后,向集成接口提交查询请求并转换为到Web数据库上的查询。Deep Web规模巨大,来源广泛,异构性强,动态性高的特点使得集成过程采用人工方式变得不现实,但是在采用自动方式进行集成的过程中,会导致诸如抽取,接口集成,标注,重复记录检测等过程产生随机性,即多种结果会出现的可能性的特性和模糊性,即由于数据所属集合的内涵,外延的不确定性,导致难以判断数据的归属的特性。上述的随机性和模糊性,在已有文献中被称作不确定性。对于这些不确定性,如果仍然采用传统的“去除不确定性”的方法来进行回避,会使得最终获得的数据因为质量低下而降低使用价值,因而如何有效解决这些不确定性问题,成为Deep Web中提高用户查询满意度的一个挑战。在Deep Web中查询的研究中,随着各种随机性,模糊性频繁在数据本身或集成过程中体现出来,对于提高用户查询的满意度出现了许多新的挑战性问题,使得不能利用已有的工作有效地进行解决。存在以下问题需要解决:1作为查询和集成的基础,需要充分考虑接口集成和接口映射过程中的随机性,建立高质量的集成接口和准确完备的接口映射。2接口间对查询的表达能力差异,需要在局部接口上找到最接近集成接口查询能力的接口表达形式,从而最终满足用户的查询请求。3 Deep Web集成中查询结果中重复记录的检测和合并过程中出现的模糊性,会大大影响数据的质量,需要构建合适的关于重复记录模糊性处理的过程和数据表达。4如何提供高效的方法,把满足用户偏好的数据呈现给用户,是评估查询质量的标准。本文以在Deep Web中为用户提供满意的查询为目标,对Deep Web中的查询过程进行了研究,并对其中所涉及的随机性和模糊性进行了解决,具体在四个方面展开研究:集成接口的形成和概率映射的生成,概率映射下的查询转换,具有隶属模糊性的重复记录处理的过程,具有概率的重复记录集上基于用户偏好的查询。本文主要工作和贡献如下:1针对Deep Web中集成接口与接口映射在利用自动方式均产生随机性的问题,提出了利用聚类集成在多个可能集成接口上生成单一集成接口的方法,并采用二分图的带权最佳匹配思想求解概率映射,有效提高了接口集成和映射的质量。2针对查询转换低效的问题,通过扩展物化结果的适用范围,设计高效的求解最小谓词的算法和查找最佳谓词组合的重写算法,有效提高了查询转换的效率。3针对重复Web记录处理过程的模糊性,把重复Web记录的检测和合并过程统一考虑,并提供了对重复记录集的表示形式,在此之上,又提出了适用于Deep Web大规模重复记录的处理方法,有效提高了重复记录检测和合并的质量。4针对在概率数据上按照用户偏好的查询,对基于global top-k查询语义的算法进行了改进,并提出了一种在概率数据上的top-k skyline方法,为用户提供了满足其查询偏好的高效的算法。