论文部分内容阅读
搜索引擎存在的问题是查全率和查准率都比较低,垂直搜索服务的出现提高了用户检索特定主题的查准率。然而互联网上大量面向特定主题的垂直搜索引擎和综合搜索引擎的出现,使用户无法判断哪些能提供较好的服务。于是构建元搜索引擎来整合垂直搜索服务和综合搜索服务可以提高查全率和查准率。然而构建元搜索引擎要面临许多挑战,数据源选择就是其中一个重要的问题。数据源选择就是如何选择数量较少并且包含相关文档较多的成员搜索引擎来处理用户查询。然而数据源选择的困难是数据源的异构性和非合作的特征。其异构性体现在查询格式、通信协议、文档建模方式等不同;非合作性体现在数据源不主动输出统计元数据信息。对于异构非合作型数据源选择存在的问题是数据源的特征描述不详细,从而导致文档相关性分布估计的不准确。本文深入研究了基于用户模型的智能数据源选择技术。首先,通过收集用户隐反馈信息利用统计语言建模技术来建立用户模型,同时数据源的建模方式采用构建主题树同时借助语言模型来表示。其次,借助于用户模型在时间轴上的动态更新来使之自适应匹配主题型数据源。在此基础上,本文提出了基于用户模型的两阶段数据源选择算法。首先在第一阶段对数据源按着所包含的主题进行分类,把用户模型导入到基于主题的数据源选择算法中,提高主题层次上的筛选分辨能力和算法的自适应能力;同时为了更加准确的估计数据源中相关文档的分布,本文对统一效用最大化框架UUM(unified utility maximization)进行了修正,在第二阶段主题相似的数据源上利用修正后的UUM框架来提高文档相关性分布估计的准确性,选出包含相关文档较多的数据源。本文最后通过试验与传统的两阶段数据源选择算法做了比较后得出的结论是:整合用户模型后在主题层次上的数据源选择准确性更高,同时提高了主题相似的数据源之间文档相关性分布估计的准确性。有效的数据源选择带动了分布式信息检索系统的性能的改善,在文档召回率和检索精度上都有不同程度的提高。