论文部分内容阅读
互联网的快速发展产生了海量数据,海量数据中的信息蕴含巨大价值,其中800%以上是文本数据,人们迫切需要一种方法来处理这些文本数据,命名实体识别技术可以将关键实体从文本中识别出来,具有很高的应用价值,但是目前的命名实体识别方法存在一些不足:(1)输入特征不能很好地表现出输入数据的特性,制约模型效果;(2)得到的标签序列前后顺承关系较弱,影响模型准确率。本文针对这些问题,进行了一系列的研究,本文的研究成果主要包括如下几个方面:1.针对输入特征难以表述输入数据的特性,制约模型效果的问题,设计了一种基于主题模型的命名实体识别方法。首先该方法训练主题模型得到词语-主题概率分布,然后将得到的词语-主题概率作为基于主题模型的特征表示,辅助命名实体模型训练。一方面,可以解决全局性特征缺乏问题;另一方面,由于辅助特征的引入,可以将模型初始化为较好效果,从而减少了前期的训练过程,减少模型训练时间。实验结果表明,改进后的模型能达到较好的效果。2.针对标签序列前后顺承关系较弱,影响模型准确率的问题,在基于主题模型的命名实体识别方法基础之上,引入卷积神经网络,设计了一种基于CNN的命名实体识别方法。该方法利用卷积神经网络局部连接和权值共享的特点,融合了局部信息,使模型学习到的标签序列前后顺承关系更加明显,实验结果表明改进后的模型效果进一步提高。