论文部分内容阅读
随着互联网的不断发展,人们利用网络进行多种多样的沟通交流,网络上也出现越来越多的新闻、百科等非结构化的文本。对这些信息的处理和挖掘能够帮助人们更好的理解文本内容,掌握有价值的信息,加强人们之间有效的交流。命名实体识别和实体链接作为处理文本中实体相关的技术也因此受到国内外研究学者越来越广泛的关注。命名实体识别是识别文本中出现的人名、机构名、地名以及时间等特殊名词的一项任务。实体链接则是将这些文本中的实体链接到知识库中一个无歧义实体的过程。实体对文本内容的理解有很大的帮助,对信息抽取、自动问答、机器翻译等任务也有着重要作用。近年来,大规模知识库在自然语言处理中不断得到应用,知识图谱相关技术迅速发展,命名实体识别和实体链接技术作为构建和应用知识图谱的关键技术之一也得到不断发展。目前该任务面临的主要问题是文本中存在的实体具有多样性和歧义性。一个指称可以代表多个存在的实体,而一个实体也可以同时拥有多个名称。为了克服实体多样性和歧义性给命名实体识别和实体链接任务带来的困难,提出基于双向长短期记忆网络与条件随机场的命名实体识别方法和基于Freebase知识库的神经网络实体链接方法用于从指称的候选实体集合中选择出指称的链接实体。结合指称上下文和候选实体描述文本降低指称歧义性带来的影响。该方法在AIDA CoNLL-YAGO实体链接语料和TAC KBP-2017命名实体识别和实体链接评测语料上链接准确率分别达到88.2%和83.7%。基于长短期记忆网络和条件随机场的命名实体识别方法在CoNLL-2003语料上F1值达到0.91。对参数的可视化分析也验证方法中所应用的结构化自注意力机制和记忆网络能够从指称上下文和实体描述文本中挖掘出有利于实体链接的关键信息。论文的主要贡献如下:1.提出基于双向长短期记忆网络和条件随机场的命名实体识别方法用于识别文本中的指称。该方法利用长短期记忆网络自动发现文本中的有效特征,并结合条件随机场算法获得序列标注的最优解。2.提出基于结构化自注意力机制和记忆网络的实体链接方法。该方法利用结构化自注意力机制获取指称上下文和实体描述文本中的有效信息,并利用记忆网络获取指称与指称上下文之间以及实体与实体描述文本之间的交互信息。3.构建基于Freebase知识库的英文命名实体识别和实体链接系统,实现对文本中指称的识别,并将其链接到知识库中的特定实体上。4.在两个标准数据集中进行相关实验。实验结果表明所提方法和目前先进的神经网络实体链接方法具有可比性。通过对参数权重的可视化分析,验证方法从指称上下文和实体描述文本中挖掘出的信息具有可解释性。