面向文本的实体关系提取方法的研究与实现

来源 :北京邮电大学 | 被引量 : 0次 | 上传用户:zhoulei1964
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网上新闻媒体和社交媒体的快速发展,这些网络媒体中存在着海量的中文文本,挖掘出文本中的重要信息具有巨大的应用价值,不仅可以监控网络平台,还可以监测其中的敏感人物。关系提取任务是自然语言处理中的一个子任务,用来提取文本中实体之间的关系。实体关系提取常用的方法是管道型方法,但管道型方法会忽略实体识别任务和关系提取任务之间的内在联系,可能导致实体识别的错误信息传递到关系提取任务中。不同于将实体识别看成关系提取前置步骤的管道型方法,端到端实体关系提取模型同时执行实体识别和关系提取任务。本文模型不借用NLP工具,以免对模型造成影响和限制,设计一种通用的端到端模型,基于预训练的bert模型,可以更好的进行词向量表征和特征提取,并对输入数据进行实体识别和关系提取,可以同时处理多个关系。由于是对中文文本进行关系提取,本文提出组成实体的字符可以提供额外的信息,有助于关系提取任务性能的提升。根据以上方案,本文设计一种可以识别实体以及提取关系的端到端关系提取模型,提高实体关系提取神经网络模型的性能。实验结果表明本文设计的端到端实体关系提取模型在构建的中文数据集上取得了良好的效果。本文的具体工作如下:1)设计一种端到端实体关系提取模型,使实体识别任务和关系提取任务建立了跨任务依赖。模型的底层架构使用同一个特征提取层。在实体识别任务中,模型将实体识别的任务看成序列标注问题,用CRF选择最优的实体标识。在关系提取任务中,设计一种软标签嵌入,有效地实现实体识别和关系提取之间的信息传递,通过分类器决策句子中实体之间的关系类型,同时处理文本中的多个关系。中文文本中组成实体的字符可以提供额外的信息,来提升关系提取任务的性能。该模型在构建的中文数据集上取得了很好的效果。2)基于预训练的bert表征模型,无需人工构建复杂特征,自动学习输入句子向量信息的特征,模型中的实体识别任务和关系提取任务共享特征提取的参数,在两个任务中对bert模型微调。相比于其它词向量模型,bert模型在实验中取得了更好的效果。3)我们将提取出的三元组构建成知识库,根据知识库构建实体之间路径作为数据集,用词向量模型表示路径特征信息,设计一种神经网络模型挖掘隐藏的关系,相对于基于规则和向量表示的方法,神经网络方法具有更好的效果。
其他文献
学位
学位
目前,CAE软件和数值模拟技术已被广泛应用至锻造、挤压、热冲压、轧制、淬火等热加工工艺的设计,并取得了较好的效果。利用数值模拟方法研究热加工工艺时,需要输入坯料及模具材料的热物性参数、力学性能参数、接触边界参数和热交换边界参数等。为了给热加工工艺数值模拟提供可靠的材料热物性参数和热交换边界参数,保证数值模拟结果的准确性和可靠性,材料热物性和界面传热特性数据库的开发逐渐受到科研和技术人员的重视。传热
公司公益性股权捐赠是公司处理内部财产的重要表现方式之一,随着社会的发展,越来越多的公司企业通过股权捐赠的方式来完成社会责任,表达慈善目的。我国公司公益性股权捐赠法律规制研究起步较晚,关于公司公益性股权捐赠的相关法律制度并不完善,出现了如曹旺德先生股捐受到强制要约收购限制、牛根生股捐需借助国外信托来行使公益等情况。本文通过对比分析法、个案研究法等研究方法,对比国外巴菲特、扎克伯格股权捐赠的先进经验,
体育舞蹈不仅体现出强烈的体育魅力而且展现了浓厚的艺术感染力,其文化内涵丰厚通过查阅期刊全文数据库、中国知网及专家访谈,发现我国对体育舞蹈的研究大多局限在技术层面,
学位
在现如今这个信息爆炸的时代,人们的通信不再满足于单一种类信息的传输,多种业务共同传输的需求在日益增长。本文立足于具体通信项目,旨在解决项目中多种业务共同传输时服务质量无法同时保证的关键问题。无线局域网由于高吞吐量、低成本的优势迅速得到了广大用户的青睐,而业务的多样化使得服务质量要求也变得多样化,对无线局域网的性能提出更高要求。电气和电子工程师协会(Institute of Electrical a
学位
嵌合抗原受体重定向 T 淋巴细胞(Chimeric antigen receptor redirected T cells,CAR-T cells)在恶性B淋巴细胞瘤治疗上取得了显著成效,在临床试验中取得了很高的缓解率并有
学位