基于深度学习的实体识别与链接研究

来源 :北京邮电大学 | 被引量 : 0次 | 上传用户:gtghs
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网的飞速发展,互联网上的数据也在以超凡的速度呈现出爆炸式的增长。尤其文本数据的爆炸式增长带来了严重的“信息过载”问题。互联网数据中海量冗余信息、虚假信息、噪音信息使得查找和浏览有用信息变得愈发困难,人们迫切需要一些自动化的技术帮助处理海量信息,自动从互联网的海量信息中抽取出噪声少,信息量高的信息,现阶段的相关技术有信息抽取,自动摘要等。作为信息抽取领域的基础技术,实体识别与实体链接,能够从杂乱无章的文本中识别出关键的实体,将文本结构化为以实体为核心的语义表示,为分析大量的非结构化文本提供了高效便捷的技术手段。实体识别是识别出文本中某些类型实体的任务,现有实体识别任务大多是对于人名,地名,组织机构名等进行识别,而对于其他特殊类型的实体识别任务研究还很少,尤其是百分比数字相关的实体识别研究更加稀少。同时,对于百分比相关的数字实体识别任务有着独特的问题挑战,例如实体本身存在省略,不完整等问题,传统实体识别方法无法解决。而此任务对于帮助机器实现自动理解百分比数字的含义,用来进行信息抽取,文本分析,生成百分比的可视化图表或是辅助智能问答有着重要意义。实体链接是指把文本中的实体提及(某个待链接到知识库的某个实体的词或短语)解析到其所代表的真实世界实体的任务,现有实体链接方法通常利用局部上下文信息去获取实体提及的向量表示,将其与候选实体向量表示相比较,接着应用条件随机场(CRF)进行集体的实体链接。此类方法的固有缺点就是,同一文档中候选实体之间的全局语义关系未在实体向量嵌入过程中进行编码。因此,所得到的实体向量嵌入表示不包含候选实体之间的全局语义信息。基于以上所述,本文开展了如下两个研究工作。基于句子改写的百分比相关数字实体识别:在本文中,我们介绍了百分比相关的数字实体识别任务特有的问题与挑战,例如实体本身是由多个不连续的文本片段组成,为解决这些问题,我们提出基于改写的方法,利用现有标注数据,训练句子改写模型,将含有多个百分比的复杂句子改写为多个相对简单子句,以缓解实体存在部分省略,或不连续等问题。同时,我们利用强化学习,联合优化句子改写模型和实体抽取模型。实验结果表明,我们的方法优于对比方法,取得了很好的效果。基于图卷积的实体链接:在本文中,为解决现有方法对于全局语义信息利用不足,我们提出了一种新颖的图神经实体链接模型。首先为文档构造异构的实体-词图,对文档中的实体之间的语义关系进行编码。然后将图形卷积网络(GCN)应用于实体-词图之上,动态地生成一组新的由实体和相关单词的语义信息增强过的实体向量嵌入,这些动态生成的实体向量嵌入使模型具有增强的全局语义一致性。在图卷积网络层之上,采用条件随机场来联合实体链接的局部和全局信息。实验结果表明,我们的方法优于一些最新的实体链接方法,具有更高的效率和有效性。
其他文献
自上世纪九十年代以来,同世界其他发展中国家相比,我国投资率一直保持在较高水平。高水平的投资率能否持续,是否有利于我国经济结构战略性调整,成为当前学界具有争议性的话题
随着复杂网络和大数据的蓬勃发展,三角形计数在重要角色识别、垃圾邮件检测、社区发现和生物检测等领域得到了广泛的应用。三角形计数算法主要用于计算相邻列表的交点数来识别图中的三角形,三角形数量在计算网络聚类系数和传递性方面起着重要的作用。传统的三角形计数算法遍历图中的每个顶点或边,找到两个列表的交集,一旦找到一个公共的邻接顶点,就找到一个三角形。随着大数据时代的到来,研究人员所研究的图结构数据数量级随着
泡沫铝以其优良的性能,受到了越来越广泛的关注,是一种具有良好前景的新型材料。如何制备具有高孔隙率和高强度的泡沫铝是当前本领域研究的重要课题之一。使用熔模铸造法可以获得孔隙率高的泡沫铝,但是由于母板材料筋过于细和制备工艺不完善等问题会导致浇注时充型困难以及所制得的泡沫铝筋过细,使得强度不足。本文通过对熔模铸造法制备泡沫铝过程的改善获得了不同筋粗细的泡沫铝。并且使得泡沫铝的强度获得了一定的提升。主要研
电力系统短期负荷预测是保障电网平稳运行中不可缺少的一环,高精度的负荷预测对电网运行意义重大,但在实际应用中,受多方因素影响,负荷预测的误差无法完全消除,从而导致负荷预测的精度难以达到百分之百,因此,如何有效的提高负荷预测的精度,使其达到电网运行的标准,一直是学术界的热点研究之一。在诸多预测模型中,神经网络具有较强的学习能力和泛化能力,因此,被广泛的运用在负荷预测领域中。本文基于神经网络的最新研究成
桑螟是桑树重大害虫之一,每年对我国蚕桑业造成严重损失。混腔室茧蜂是桑螟优势寄生性天敌,其寄生率高,控制效果持久。将其开发为桑园生防因子符合“绿色防控”方向。本研究以混腔室茧蜂—桑螟为寄生体系,探究混腔室茧蜂的逐日生殖力及子代适合度指标,解析混腔室茧蜂毒液蛋白基因种类及表达模式,明确毒液钙网蛋白在寄生过程中的功能,阐明桑螟被混腔室茧蜂寄生后免疫基因表达模式及和激素水平的变化,从而揭示了混腔室茧蜂对桑
化石能源的过度消耗带来的能源短缺和生态环境危机日益严重,利用太阳能产生清洁燃料或降解处理环境污染物的先进光催化技术被认为是解决能源环境危机最有前景的手段之一,而高效光催化材料的开发是其中关键。本文以二氧化钛(TiO2)、硫化镉(CdS)两种典型的半导体光催化材料为例,通过有序介孔结构的调控、骨架尺寸的剪裁、界面异质结的构筑,有效地增加了材料的比表面积、改善了物质传输能力以及光生电子和空穴的传输分离
本文包括绪论、正文和结论三部分。第1章为绪论,说明本文选题意义,对国内外研究现状做了简要的学术史回顾,交代了文章的研究方法和写作思路,并分析了本文的创新与不足。第2、3、4章为正文。其中,第2章主要梳理了卫国战争之前三个五年计划的实施对苏联坦克工业建立和发展的影响,以及彼时苏联坦克工业的发展状况和存在的问题。三个五年计划背景下的苏联坦克工业发展,为卫国战争爆发后的苏联坦克在战场上巨大作用的发挥打下
家蚕二分浓核病毒(Bombyx mori bidensovirus,Bm BDV)是一种重要的病毒,每年给养蚕业生产带来了巨大的经济损失。mi RNAs(micro RNAs)是一类内源性非编码小RNA分子,由18~24个核苷酸组成,具有调节生物体生命活动的作用。本研究采用高通量测序技术对感染Bm BDV 36 h后的3龄幼蚕和对照组样品进行测序,并对测序数据进行生物信息学分析,筛选出24个差异表
随着柔性电子、可穿戴设备、生物医药、组织工程等领域的高速发展,兼具柔性与导电性的柔性电子材料成为未来电子材料发展的一大趋势。导电聚合物基水凝胶因其灵活的构筑策略、可控的机械性能与导电性,有望成为柔性电子等领域的备选材料之一,因此受到研究者们的广泛关注。然而,现有的导电聚合物基水凝胶体系普遍存在机械强度低、功能单一等缺点,限制了其在柔性电子等领域的应用。本论文围绕导电聚合物基水凝胶网络构筑与调控的核
随着大健康产业的到来,国家先后颁布了一系列政策支持大健康产业的发展,健康医疗地产作为大健康产业的一部分正日益受到市场的关注。近年来,许多企业通过拓展性战略方式,开始把目光投向了“医疗+地产”的发展方向,同时地方政府也在积极招商引资,以医疗健康产业的形式打造健康城市。政府的诉求与企业的规划相互吻合,共同发展。首先,运用PEST分析法和波特五力模型对公司外部宏观环境和竞争环境进行分析,得出医疗健康地产