论文部分内容阅读
随着互联网上新闻媒体和社交媒体的快速发展,这些网络媒体中存在着海量的中文文本,挖掘出文本中的重要信息具有巨大的应用价值,不仅可以监控网络平台,还可以监测其中的敏感人物。关系提取任务是自然语言处理中的一个子任务,用来提取文本中实体之间的关系。实体关系提取常用的方法是管道型方法,但管道型方法会忽略实体识别任务和关系提取任务之间的内在联系,可能导致实体识别的错误信息传递到关系提取任务中。不同于将实体识别看成关系提取前置步骤的管道型方法,端到端实体关系提取模型同时执行实体识别和关系提取任务。本文模型不借用NLP工具,以免对模型造成影响和限制,设计一种通用的端到端模型,基于预训练的bert模型,可以更好的进行词向量表征和特征提取,并对输入数据进行实体识别和关系提取,可以同时处理多个关系。由于是对中文文本进行关系提取,本文提出组成实体的字符可以提供额外的信息,有助于关系提取任务性能的提升。根据以上方案,本文设计一种可以识别实体以及提取关系的端到端关系提取模型,提高实体关系提取神经网络模型的性能。实验结果表明本文设计的端到端实体关系提取模型在构建的中文数据集上取得了良好的效果。本文的具体工作如下:1)设计一种端到端实体关系提取模型,使实体识别任务和关系提取任务建立了跨任务依赖。模型的底层架构使用同一个特征提取层。在实体识别任务中,模型将实体识别的任务看成序列标注问题,用CRF选择最优的实体标识。在关系提取任务中,设计一种软标签嵌入,有效地实现实体识别和关系提取之间的信息传递,通过分类器决策句子中实体之间的关系类型,同时处理文本中的多个关系。中文文本中组成实体的字符可以提供额外的信息,来提升关系提取任务的性能。该模型在构建的中文数据集上取得了很好的效果。2)基于预训练的bert表征模型,无需人工构建复杂特征,自动学习输入句子向量信息的特征,模型中的实体识别任务和关系提取任务共享特征提取的参数,在两个任务中对bert模型微调。相比于其它词向量模型,bert模型在实验中取得了更好的效果。3)我们将提取出的三元组构建成知识库,根据知识库构建实体之间路径作为数据集,用词向量模型表示路径特征信息,设计一种神经网络模型挖掘隐藏的关系,相对于基于规则和向量表示的方法,神经网络方法具有更好的效果。