论文部分内容阅读
随着互联网的迅速发展,命名实体识别任务日益受到人们重视,命名实体识别已成为舆情分析、信息检索、自动问答、机器翻译等自然语言处理技术的重要组成部分。如何从海量的互联网文本信息中自动、准确、快速地识别出命名实体,逐渐成为了学术界和工业界关注的热点问题。近年来,命名实体识别相关的研究逐渐兴起。一系列的算法不断涌现,命名实体的应用场景不断扩展。涵盖了人们生活的方方面面。但现有的算法主要集中在现代文语料,对于古文语料的研究甚少,随着大规模古文语料的数字化,如何从这些语料中挖掘出有价值的实体信息,将给自然语言处理领域以及计算社会学领域带来很重要的意义。在本文中,古文学命名实体相关的研究内容主要包含以下几个方面的工作:古文语料的获取与预处理。由于古文语料(已经作好中文分词处理和命名实体识别标注的)尚不可得,需要研究者自己人工的对于语料进行处理和标注,所以进行本文研究的第一步也是最关键的一步就是获取实验语料,并对获取的古文语料进行预处理。本文主要对宋词语料和史记语料进行研究。基于古文语料新词发现算法的研究。由于中文分词结果的准确性会给命名实体识别的效果带来很大的影响,而且由于古文本身语料的特殊性,很多词语都不在现代汉语词典的收录中,为了提高古文语料的分词准确性,本文基于Apriori算法和LSTM神经网络设计了一套新词发现算法。古文语料中命名实体识别模型的研究。传统的中文命名实体识别的研究主要集中在现代文语料中,针对古文语料的命名实体识别的研究还处于起步阶段,目前对于现代文语料中命名实体识别研究的主流方法是基于最大熵模型、条件随机场模型、神经网络模型等一系列机器学习的方法,本课题结合LSTM神经网络模型以及条件随机场模型探索了在古文语料上的命名实体识别性能。命名实体消岐算法的研究。实体消岐旨在进一步提高命名实体的质量,将含有歧义的实体链接至正确的实体上。本文对传统的PageRank算法进行了改进,融合了新的文本相似性方法,并结合增量证据挖掘,提出了一种基于图排序的中文实体消岐算法,并在现代文语料上进行了验证。