论文部分内容阅读
面对日益剧增的互联网数据,人们需要一种有效的方式来帮助从海量的无序数据中抽取、整理出有用的信息与知识。随着这种需求的递增和科研工作者不断努力探索,知识库在学术界和工业界逐渐被使用和进一步研究。知识库系统是一种框架,将信息以结构化的形式存储和关联,使之能够更好地服务于类似搜索、问答和推荐等应用。本文应用深度学习来进行命名实体识别,开展的工作如下: (1)根据特征在语义表达上的深浅关系,使用了传统命名实体识别常用的浅层特征、主题分布向量特征和深层特征来产生新的特征表示。这三种特征从语义上由浅及深,可更好地覆盖文本的语义空间。 (2)提出了基于条件随机场和递归神经网络为一体的实体识别模型,使用条件随机场从文本中抽取命名实体,同时得到实体的相关特征。接着结合之前的主题分布特征和词向量特征作为输入,利用递归伸进网络学习得到实体的向量特征,最后使用softmax回归对实体类型进行识别。 (3)将本文算法与其他方法在OntoNote5.0数据集上进行了的实验对比。通过对实验结果对比,呈现了本文所设计算法的有效性及合理性,并做了相关的分析。另外,还将本文提出的命名实体识别方法应用到TAC-KBP2015竞赛和工程项目中。