基于深度学习的实体链接方法与系统

来源 :中国科学院大学(中国科学院人工智能学院) | 被引量 : 0次 | 上传用户:btbsh023
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
实体链接(Entity linking)旨在将文本中的实体指称词映射到已有知识库中对应的正确实体上。作为自然语言处理中的子任务,它能消除自然语言中的歧义,是帮助计算机实现自然语言理解的核心技术之一。当前主流的实体链接方法利用外部知识库为指称词的候选实体构造子图,然后将在该子图上抽取的全局特征与本地特征结合对候选实体进行排序,进而将排序在前的候选实体作为最终实体。该类方法虽然有效利用了候选实体之间的关系信息,链接性能好,但其运算量较大而且没有利用到文档中的指称词之间文本的语义信息。为此,本文在上述工作基础上,利用深度学习技术研究指称词间文本的语义信息对候选实体排序位置的影响,进而提出了词向量与实体向量联合训练的学习方法与指称词间语义关系增强的实体消歧模型,并构建了基于该模型的实体链接系统,该系统能够以可视化的方式显示链接结果,具体成果如下:1、提出了一种词向量与实体向量的联合训练方法。在基于深度学习的实体链接方法中,词与实体都需要使用向量进行表示,而且指称词上下文与候选实体要进行交互以计算指称词与候选实体的相似程度。考虑到已有词向量与实体向量联合学习方法参数复杂、较难调参的问题,该方法将词向量与实体向量联合学习在同一个向量空间中,提高了联合训练方法的效率。实验结果表明,该方法能够较好的表达知识库中实体间的结构信息与语义信息,生成的实体向量在实体类比推理与实体相关性实验NDCG@1指标上取得了最好效果。2、提出了指称词间语义关系增强的消歧模型。通过观察发现,一个文档中两个实体指称词之间的文本与指称词所对应的实体均有一定的语义相似性。基于此,本文在前面所生成实体向量的基础上,提出了指称词间语义关系增强的联合消歧模型,该模型使用深度学习技术建模指称词的上下文进而使用上下文语义信息帮助模型进行全局推断。通过将局部特征与全局特征结合起来进行训练,本文在相关实体链接数据集上取得了与当前最好结果大体相当的性能。3、构建了一个实体链接系统。系统前端界面接收用户提交的自然语言文本,经过实体链接模型对候选实体进行排序后系统将置信度最高的候选实体标记为正确实体,然后将该文本中指称词转化为指向正确实体对应页面的超链接,系统后台中还包含知识库信息更新机制以保证链接结果的准确性与实时性。该系统在自由文本上验证了本文所提出的基于深度学习的实体链接模型的有效性。同时该系统也应用到“基于开放网络数据构建知识图谱”等科研课题与其他下游任务中,具有重要的应用价值和发展前景。通过上述工作,我们提出的实体链接模型在相关数据集上取得了与当前最好结果相仿的性能,证明了本文工作的有效性。本文工作为协同实体链接方法提供了新思路,促进了实体链接研究方法的发展。
其他文献
随着经济的快速发展和福利制度的逐步完善,政府对于困境儿童的关注与帮扶力度越来越大。散居孤儿作为困境儿童群体之一,一直受到社会各界的关注,政府注重解决孤儿的基本生存
源文本是小说《伟大的孤独》,研究内容是文本中节选片段的文化负载词的汉译方法。文化负载词是指具有深深的文化烙印、民族文化特色和内涵的特殊词汇。这类词语承载着特定的民族文化信息,体现着深厚的民族文化。它们是民族文化在语言上的直接和间接反映。当源语言中的某些文化负载词所承载的信息在目的语中没有完全对等的语言表达时,译者往往需要采用恰当的翻译方法把通顺、达意的信息传达给目标语的读者。这也是一种跨文化交际。
本文叙述了以波传播和谱振幅比法测得的滇西地区九种岩石在不同应力状态下(σ_1=σ_2=σ_3=σ)的衰减系数,P波速度及Q值。在σ≤90 MPa时,随压力增加,衰减系数减小,P波速度及Q值增大;在σ≥120 MPa以后,衰减系数、P波速度及Q值变化甚小。其中团山砂岩及砖窑村片麻岩Q值较低。
This paper briefly reviews other people's works on negative selection algorithm and their shortcomings. With a view to the real problem to be solved, author
渭河盆地西部地区位于中国南北地震带的北段与中段交会处,该区域构造复杂,断裂发育,是陕西省重点地震监控防御地区。渭河盆地有着丰富的氦气资源,渭河盆地西部地区是盆地内氦气资源的重要勘探区域。因此,渭河盆地西部地区的构造特征研究有着重要意义。前人对该区域做了大量的研究工作,但目前对于该区的地层发育特征、基底属性和构造单元划分等基础地质问题认识不一,使该区很多相关工作的开展存在不便。为了对前人存在争议的关
We solve the problem of uplink video streaming in CDMA cellular networks by jointly designing the rate control and scheduling algorithms. In the pricing-based d
表现性评价是以真实情境为依托,以多样化的活动为评价载体,以学生表现为评价内容,以培养学生主动学习意识以及深层次、全方位、多角度的反馈地理教与学为终极目标的一种评价
井矿用提升机液压制动系统存在很大的安全隐患,通过在原系统中增加一路手动液压安全回路,来解决在提升机停车时,液压回路出现故障,无法泄压,盘闸不能起到制动作用时的一种保
高中人民版历史必修二教材紧扣课标.有利于实现教学三维目标。教材呈现方式多样化.有利于学生个性发展。此外,还有许多明显特点,这是旧教材所不能比的。但在教学实践活动中也存在
目的探讨何首乌、女贞子等中药混合煎剂对体外培养的猪毛囊毛发生长的影响。方法将离体培养的猪毛囊分为对照组(Williams E培养基)和中药组(Williams E培养基+中药煎剂),显微