论文部分内容阅读
传统的通用Web搜索模型检索的是与查询相关的所有领域的信息,并且只能以网页的形式作为返回结果进行展示。从某种意义上说,用户对返回的成千上万个网页并没有任何兴趣,用户真正需要的信息是包含在网页中的能回答用户输入的搜索关键字的“答案”,例如与搜索关键字相关的特定实体,图片,多媒体文件或者用文本表示的一段描述。使用现在的通用搜索引擎,用户常常要在被这些搜索引擎返回的页面中手工过滤才能找到他们所需要的“答案”或描述。
本文研究了如何构建一种有别于传统的通用Web搜索模型的实体检索模型,使之能够对指定的领域下的特定实体进行有效的搜索,并直接返回同样排好序的实体信息,而不是返回大量的网页。本文提出的特定实体检索模型有如下特点:首先,特定实体检索模型能过滤那些与查询相关但不涉及该特定实体的网页,从而使信息源限定在特定的领域范围内。其次,特定实体检索模型返回的是直接的实体信息,这些信息原本隐藏在通用搜索引擎返回的网页中。第三,特定实体检索模型能从Web信息中自动挖掘出每个特定实体间的区别,并按照查询关键字对实体的产生式概率对返回结果进行排序。
为了搜索特定实体,我们的模型主要从Web信息中挖掘并估计一些特性:例如,实体的相关度,实体的权威度,实体-查询的关联度以及文档的先验概率。实体的相关度主要衡量该实体是否与用户的查询关键字相关,实体的权威度主要衡量在所有相关实体的集合中该实体是否比其他实体权威,实体-查询的关联度体现了在某个具体文档中实体和查询关键字在概率上相关的程度,文档的先验概率则体现了文档本身的特性对实体检索的影响。本文使用统计语言模型来估计实体的相关度,并同样使用统计语言模型来估计实体的权威度。本文还根据概率论的理论构建了一种评分函数来融合对实体的相关度和实体的权威度等特性的估计,评分函数将输出一个排好序的实体列表返回给用户以响应用户的查询。