基于实体的信息检索模型研究

来源 :华中师范大学 | 被引量 : 0次 | 上传用户:lichangsong3
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
传统的信息检索方法通常使用基于“词袋”的文本表征模型。“词袋”模型在表征文本时存在非常明显的缺陷。文本中的词项蕴含一词多义、语义相关和多词同义等复杂语义信息,而这种模型不能很好的捕获文本中的词项的复杂语义信息。知识库(例如,Wikipedia)中的实体蕴含了丰富的语义信息。因此,许多研究者们尝试利用知识库中的实体来对文本建模,并提出了许多基于实体的信息检索方法。本文中在语言模型框架下分别提出了新的基于实体的检索模型和伪相关反馈模型。与已有的基于实体的检索模型相比,本文中提出的方法有以下两点优势:(1)使用实体链接工具TagMe抽取查询和文档的实体,TagMe在精度上优于已有的实体链接工具,能够快速、准确地抽取文本中链接的实体;(2)在语言模型的检索框架上融合查询和检索文档的词项信息和实体信息,考虑词项信息和实体信息的相对重要性对检索性能的影响。本文中的主要研究工作内容如下:1)提出了一个基于实体的语言模型检索框架,将实体信息融入到基于词项的一元语言模型中,以此提高信息检索的性能。本文分别在语言模型定义的层次上和检索模型评分函数的层次上融合词项信息和实体信息来提高检索性能。本文中提出了四种基于实体的检索模型TSE、TAE、TS-TSE和TS-TAE。在AP90、AP、DISK1-2、DISK4-5(-CR)、WT2G和WT10G数据集上的实验证明了检索模型TSE、TAE、TS-TSE和TS-TAE的有效性和可行性。2)将基于实体的语言模型应用到伪相关反馈方法中以提高伪相关反馈方法的检索性能。在传统的伪相关反馈方法中,计算候选词项在伪相关反馈文档中的重要性程度时只考虑词项的词频和逆文档频率,忽略了文本中的词项的复杂语义信息,因此,候选扩展词项可能与初始查询在语义层次上不相关。基于这一思路,本文中提出了一个基于实体的伪相关反馈框架,将实体信息融入到相关性模型RM3中,以此提高信息检索的性能。本文中在语言模型框架下提出了两种基于实体的伪相关反馈检索模型RM-TAE和RM-TAE-TAE。在AP90、AP、DISK1-2、DISK4-5(-CR)、WT2G和WT10G数据集上的实验证明了检索模型RM-TAE和RM-TAE-TAE的有效性和可行性。
其他文献
目的研究植物乳杆菌HO-69在口腔中的益生性质。方法在体外模拟口腔硬组织,研究菌株对牙面与牙本质的黏附率;以MATH法确定其表面疏水性与电荷,推测菌株对口腔软组织的黏附率;
目的研究氟对镍钛弓丝色泽的影响。方法将4种镍钛弓丝(IMD、SL、TP、YY)各40个样本,分为4个小组。其中1个为对照组,放入人工唾液中不作处理;3个为实验组,分别放入含有不同浓度氟离
为降低环保风险,满足大位移井及水平井钻井需求,将向长链的多元醇胺中引入多种活性元素及金属元素得到的反应产物与脂肪酸反应,然后加入复配乳化剂,制得减摩降阻剂NH-JZ.研究
随着我国经济进入新常态,传统的依附劳动和资本投入要素的经济增长方式面临着巨大挑战,提高全要素生产率成为新常态下可持续发展的新增长动力。我国经济现在的首要任务是要加
万历首辅张居正,生于江陵县。他是明代著名的政治家、改革家,梁启超先生称其为'明代唯一的大政治家'。在万历十年(公元1582年)的春节,张居正病倒了,起因正是本文所要
针对目前中医妇科学以健脾、疏肝、和胃、降逆之法治疗妊娠恶阻不能完全应对临床繁多病证的现况,本文提出"汗、下、和、温、清、消、补"治恶阻"七法",并详述了其具体运用。虽
2019年7月11日,国家卫生健康委等10部门联合印发了《尘肺病防治攻坚行动方案》。  《尘肺病防治攻坚行动方案》明确,到2020年年底,要摸清用人单位粉尘危害基本情况和报告职业性尘肺病患者健康状况,明确要求开展尘肺病患者救助行动。  一是对于已经诊断为职业性尘肺病且已参加工伤保险的患者,严格按照现有政策规定落实各项保障措施。  二是对于已经诊断为职业性塵肺病、未参加工伤保险,但相关用人单位仍存在
目的 研究并比较分割式可摘局部义齿与缓冲圆锥型套筒冠义齿在垂直载荷下的应力情况。方法选择上颌双侧第二前磨牙、第一磨牙缺失并伴有基牙有Ⅰ度松动的患者1名,通过螺旋CT扫