实体检索的理论与关键技术研究

来源 :国防科学技术大学 | 被引量 : 0次 | 上传用户:cpingpeng
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网的普及和检索技术的发展,信息检索的研究范畴已经远远超出了传统的文档检索,实体检索目前已成为信息检索研究领域的新焦点。给定用户的信息需求,该技术旨在检索特定的实体如“人”、“地点”、“组织”、“产品”等。本文针对目前实体检索研究领域亟待解决的一系列重要问题,对实体检索展开了系统深入的研究。本文首先研究了实体检索中最重要的一类问题——专家发现(expert finding)问题:1.研究了文档、查询与候选实体的关联子模型。在经典的专家发现模型中,通常假设在给定文档的条件下,候选实体与查询词项条件独立。但是,该假设在实际应用中往往不成立,从而导致专家发现系统性能不佳。针对该问题,本文提出了一种基于主题模型的专家发现方法。该方法建立在潜在Dirichlet分配(latent Dirichlet allocation,LDA)模型的基础上,无需依赖上述条件独立性假设。在CERC(CSIRO Enterprise Research Collection)数据集上的测试结果表明,基于主题模型的专家发现方法能够有效地提升专家发现系统的效能。2.研究了专家发现模型中的文档先验分布。提出了基于DocRank算法的专家发现模型。另外,针对DocRank算法无法处理“同义词”、“近义词”的问题,又提出了TopicRank算法。TopicRank算法使用LDA模型来提取文档的主题,然后通过分析各个文档的主题分布来构造文档图,最后使用链接分析来得到文档先验分布。在此基础上,建立了基于TopicRank算法的文档先验子模型。3.研究了专家发现模型中的候选实体先验分布。候选实体先验概率是对各个候选实体重要性的度量,合理地定义它能够极大地提升专家发现系统的性能。但是,目前大部分研究都简单地假设候选实体先验概率服从均匀分布,即认为所有候选实体是同等重要的。显然,这是与实际情况不相符的。本文提出了一种以主题为中心的候选实体先验子模型,该模型能够有效地利用整个语料集中的信息来得到更加合理的候选实体先验概率。研究不同实体之间的关系对于实体检索非常重要,然而专家发现系统却无法对实体之间的关系进行检索。因此,论文进一步研究了相关实体发现(related entity finding)问题:1.研究了表格和列表中的实体提取方法。网页的表格和列表中包含了大量实体。然而这些实体周围缺少上下文,命名实体识别工具无法有效提取表格和列表中的实体。本文提出了一种针对表格和列表的实体提取方法,该方法首先依据各种表格和列表的特性对其进行分类,之后结合目标实体的精细类型信息从表格和列表中提取出候选实体。2.研究了实体过滤问题。由于使用实体提取方法得到的候选实体列表中包含大量的噪声,在实体提取之后,通常需要对候选实体列表进行过滤。本文提出了基于文档频率的实体过滤模型。与传统的利用实体类型信息进行过滤的方法截然不同,该模型主要利用了实体的文档频率信息过滤实体,具有计算量小、实时性强、效率高的优点。3.研究了实体排序问题。提出了一种基于主题模型的实体排序方法,该方法首先使用LDA提取出相关文档集合的主题分布。在此基础上,利用候选实体与查询之间的同现概率进行实体排序。论文最后研究了实体名称排歧问题。实体名称歧义性问题是实体检索研究中经常遇到的问题。一个实体往往可能具有多个不同的名称,而多个实体也可能共享同一名称。本文研究了实体名称排歧中最重要的一类问题——人物姓名排歧,提出了一种三阶段人物姓名排歧模型。在第一阶段,提出了基于主题模型的人物姓名排歧算法,并分别使用该算法和凝聚式层次聚类算法进行人物姓名排歧。在第二阶段,使用投票模型将第一阶段的聚类结果进行融合得到高纯度的聚类簇。在第三阶段,使用凝聚模型对融合之后的结果进一步聚类,提高聚类结果的逆纯度。
其他文献
<正>二〇一五年,岁次乙未,阳春三月之下浣,中国书协西部书界新秀隶书班六十余人,会于黄河南滨之古西亳,学书悟道而修正自我,至诚至善而回归传统。如此正本清源,使吾深有所悟
期刊
回 回 产卜爹仇贱回——回 日E回。”。回祖 一回“。回干 肉果幻中 N_。NH lP7-ewwe--一”$ MN。W;- __._——————》 砧叫]们羽 制作:陈恬’#陈川个美食 Back to yield
会议
目的分析复方樟柳碱注射液治疗眼底病临床效果.方法抽选我院2017年12月至2018年12月接收的眼底病患者122例为研究对象,据随机数字法分为两组,对照组行常规激素治疗,研究组联
R32冷媒为新一代的节能减碳环保无毒制冷剂,拥有零臭氧损耗潜势。近年来,有关R32冷媒在风冷冷热水机组上的试验研究结果显示,R32冷媒具有较好的热物性,GWP(全球变暖潜能值)值低
小学数学核心素养具有基础性、发展性和实践性等特点,是当代小学生应当具备的能力.我们要对小学数学核心素养的培养引起重视,将其作为教学目标,列入教学任务当中,在准确地把
卫生行政法律法规中关于违法所得的认定,在实践中存有争议。本文解析了深圳市L区卫生监督所承办的“左某非医师行医案”,厘清了何为违法所得及其与没收违法所得的关系,为今后
文章讨论了虚拟实训教学环境下的教学交互研究现状,阐述了相关研究的重要性,提出了虚拟实训教学交互研究中迫切需要解决的3个问题。
在传统仲裁协议签定过程中.由于双方可以通过多种方式和手段对对方的年龄或民事行为能力等有认知。而在匿名或身份虚拟化、数字化的网络空间进行交易时.当事人往往无从获知对方