论文部分内容阅读
随着信息技术的不断发展,Web上的信息量呈爆炸性增长。按照所蕴含信息深度的不同,可以将Web划分为Surface Web和Deep Web两大类。其中,Deep Web是指那些存储在Web数据库里、不能通过超链接访问而需要采用动态网页技术访问的资源集合。Deep Web中的信息量远远大于Surface Web中的信息量,有效地利用这些信息,能够更加充分地发挥Internet的作用。然而,在查询信息的过程中难免会产生失败查询,即没有结果返回的查询。对失败查询进行处理,使其返回与用户意愿比较相近的结果,比告知用户没有结果更具协作性,更有意义。
本文基于对Deep Web环境的观察和分析,提出了一种Deep Web环境下查询松弛的解决方案。首先,利用查询探测获得未知数据源的样本信息,并根据样本信息计算各个属性的近似函数依赖关系,得到属性重要度:然后,通过变换数据源关系全图得到针对于查询请求的数据源关系图;最后,利用这个数据源关系图,就可以按照特定的规则进行查询松弛和执行过程。
由于查询松弛的存在,从各数据源得到的结果数量可能很大,部分结果与用户查询请求的相似度较低,因此从各数据源得到结果后,先通过skyline方法对结果进行筛选,然后根据各个结果实例与用户查询的相似度进行排序,将最接近用户要求的结果集返回给用户。
以此查询松弛和结果过滤方法为基础,实现了Deep Web搜索引擎DWSearch中的查询处理子系统。出于处理并发访问的考虑,该系统采用了分布式设计。以DWSearch系统为平台,通过实验验证了本文提出的查询松弛和结果过滤办法的有效性。