论文部分内容阅读
随着Web信息的激增,Web服务器维护的数据库即Deep Web存储的信息越来越多,以尽可能自动的方式实现对在线数据库中信息的有效访问是目前Deep Web数据集成的主要目标。目前互联网中包含了大量的不同领域的Deep Web数据源,面向领域的数据集成技术也日臻成熟,出现了很多面向某一特定领域的Deep Web数据集成系统。本文假设所有的Deep Web数据源已经按照领域分好类,每一个类是所有该领域的Deep Web数据源的集成,具有统一的全局访问接口。目前,随着Deep Web应用的增多,用户跨领域查询已成为一种迫切的需求,本文要研究的是如何基于这些不同领域的集成类协助用户完成跨领域查询。针对这个问题,本文提出了一种自适应跨领域查询方法,具体来说包括(1)通过分析数据源查询接口属性名和后台Web数据库内容计算数据源间相关度,根据数据源间的相关度判定不同领域之间的关联性,基于领域关联性,构建领域相关性模型,获得领域关联图;(2)当用户查询到达时,基于领域关联图,构建查询树,根据数据源间的关联度获取用户跨领域查询路径,提出一个跨领域查询的查询路径综合评估模型(QPEM)对查询路径进行质量评估,推荐每关联领域对内top-k查询路径来满足用户多种可能的查询意图。本文以Web数据库的采样样本为选择数据库的依据,即首先根据Web数据库的样本选择满足用户查询的Web数据库,之后再对选择出的Web数据库进行真正的查询,从而使查询代价降低。另外,计算数据源内容相关度也是基于Web数据库样本来计算的。基于多因素决策的模糊评价模型提出的面向跨领域查询的查询路径评估模型(QPEM),从领域间数据源的关联度、查询树中父节点中数据源质量、父节点中数据源出度和子节点中数据源质量以及数据源的入度五个指标对查询路径进行综合评估。经过实验验证,本文提出的数据源关联性挖掘方法具有很高的准确率,同时针对查询路径的推荐结果,将四种标准化方法就用户满意度进行对比,研究了查询覆盖率对用户满意度的影响,实验结果表明本文方法对于跨领域查询路径推荐很有效。