基于两阶段语言模型的特定实体搜索

来源 :上海交通大学 | 被引量 : 0次 | 上传用户:fsch2000
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
传统的通用Web搜索模型检索的是与查询相关的所有领域的信息,并且只能以网页的形式作为返回结果进行展示。从某种意义上说,用户对返回的成千上万个网页并没有任何兴趣,用户真正需要的信息是包含在网页中的能回答用户输入的搜索关键字的“答案”,例如与搜索关键字相关的特定实体,图片,多媒体文件或者用文本表示的一段描述。使用现在的通用搜索引擎,用户常常要在被这些搜索引擎返回的页面中手工过滤才能找到他们所需要的“答案”或描述。 本文研究了如何构建一种有别于传统的通用Web搜索模型的实体检索模型,使之能够对指定的领域下的特定实体进行有效的搜索,并直接返回同样排好序的实体信息,而不是返回大量的网页。本文提出的特定实体检索模型有如下特点:首先,特定实体检索模型能过滤那些与查询相关但不涉及该特定实体的网页,从而使信息源限定在特定的领域范围内。其次,特定实体检索模型返回的是直接的实体信息,这些信息原本隐藏在通用搜索引擎返回的网页中。第三,特定实体检索模型能从Web信息中自动挖掘出每个特定实体间的区别,并按照查询关键字对实体的产生式概率对返回结果进行排序。 为了搜索特定实体,我们的模型主要从Web信息中挖掘并估计一些特性:例如,实体的相关度,实体的权威度,实体-查询的关联度以及文档的先验概率。实体的相关度主要衡量该实体是否与用户的查询关键字相关,实体的权威度主要衡量在所有相关实体的集合中该实体是否比其他实体权威,实体-查询的关联度体现了在某个具体文档中实体和查询关键字在概率上相关的程度,文档的先验概率则体现了文档本身的特性对实体检索的影响。本文使用统计语言模型来估计实体的相关度,并同样使用统计语言模型来估计实体的权威度。本文还根据概率论的理论构建了一种评分函数来融合对实体的相关度和实体的权威度等特性的估计,评分函数将输出一个排好序的实体列表返回给用户以响应用户的查询。
其他文献
近些年来,网格计算作为一种分布式计算技术得到了飞速发展,网格计算的概念已经从传统的利用分散的计算资源来进行高性能计算,转变为构建资源共享协同工作的平台。网格的体系结构
电子政务工程是按照信息时代的要求采用信息化技术为政府的各方面管理和事务处理提供的一种数字化环境。协同办公系统是一个能充分适应现代化需求的政务数字化、自动化办公平
随着计算机应用日益发展,学校计算机房的开放性的要求日益突出,所以需要针对这个特点开发相应的管理系统.计算机远程控制作为一种新的需求,在这一系统中具有很重要的地位,它
网络课程是网络教育资源非常重要的组成部分。在网络教育环境中,视频网络课程是学生的主要学习资源。学生用户可以根据课程安排在线收看直播课程,也可以根据自己的时间选择收看
随着国民经济和社会信息化程度的提高,社会对信息化提出了更高的需求。企业资源计划(Enterprise Resource Planning ERP)系统是企业信息化建设的重要组成部分,而实施知识管理是
网上业务日益繁重,通信量的迅猛增长使得目前的网络数据传输方式需要改进,组播被认为是一种有效的传输方式,但还有几个问题需要加以解决,比如可靠性和拥塞控制。目前已经有一些可
绩效考核是企业对员工在工作过程中表现出来的业绩,工作的数量、质量和社会效益、工作能力、工作态度等进行评价,并用考核结果来判断员工与其岗位的要求是否相称,其目的是确认员工的工作成就,改进员工的工作方式,提高工作效率和经营效益,激活人力资源管理的各项职能活动,形成强大的内驱力和拉动力,通过不断地改善员工个人的绩效,最终实现企业整体绩效的提升。 本论文基于能力素质模型,包括能力的人格、态度、知识和
人民银行是我国的中央银行,负责制定和执行货币政策,防范和化解金融风险,维护金融稳定,对整个金融行业的发展具有重要的影响作用。随着人民银行金融电子化程度的不断提高,人
由于网络信息数量太大,与一个话题相关的信息往往孤立地分散在很多不同的地方并且出现在不同的时间,仅仅通过这些孤立的信息,人们对某些事件难以做到全面的把握。话题检测与
多年以来,形式化规约(formal specification)一直是软件工程领域中的一个研究热点,它的应用范围也正在逐步增长。许多研究表明,对形式化规约的错误检测能够大幅度减少软件工程项