论文部分内容阅读
随着互联网的不断发展,互联网中数据量也在不断的增多。然而大部分数据以文本的形式存储,如何有效的将数据从文本中抽取出来是一个十分重要问题。实体关系抽取作为信息抽取的关键组成部分,将非结构的自然语言文本结构化,是问答系统和知识图谱等自然语言应用的基础。然而传统关系抽取方法在训练前多需要人工标注数据、选取特征并且定义关系类型需要专业领域的专家辅助,这样消耗大量的人力和时间,所以如何以更少的代价获取实体关系变的尤为重要。为解决以上问题,本文利用远程监督、深度学习、自然语言处理等技术为历史领域的实体关系挖掘设计了两种算法。本文在研究历史实体关系挖掘方法过程中,收集了百度百科、维基百科、课本及通用知识图谱等资源作为历史数据。在历史领域关系挖掘研究中,还没有出现关系类型覆盖率较高的公开数据集,人工预定义关系类型会出现偏差和不全面的问题。针对此问题,本文提出了基于规则匹配的历史实体关系抽取方法,提取非结构文本中的关系指示词,避免了人工预定义关系类型的问题。同时在模型中增加对历史文本的特殊句法处理和Logictic回归模型提高关系三元组抽取准确率。在针对人工标注数据代价高的问题上,利用远程监督的方法自动标注了训练数据,但远程监督也会带来句内噪音和标注错误的问题。为了解决这两个问题,本文提出了基于SDP、Bi GRU和APCNNs的融合关系抽取模型。其中通过最短依存路径SDP对句内噪音进行过滤,减少了句子长度,有效的解决了句内噪音问题。在加入APCNNs后,利用了其中基于句子级别的注意力机制和分段最大池化的方法,弱化了错误标注对关系抽取带来的影响。同时,将Bi GRU加入到模型的向量表示阶段,学习到了词语的上下文信息,为模型训练增加了更多特征,提高了模型的准确率。实验表明,基于SDP、Bi GRU和APCNNs的融合关系抽取模型在远程监督构建的历史训练语料中取得了不错的效果。