论文部分内容阅读
命名实体识别作为自然语言处理领域的基本任务之一,在信息检索,自动问答,知识图谱等领域发挥着重要作用。目前,关于命名实体对规范性文本的识别研究相对成熟,但对微博等非标准文本的命名实体识别研究相对较少,而微博文本的命名实体识别效果不如规范性文本。面向微博文本的命名实体识别任务已成为研究的热点。随着深度学习方法在自然语言处理领域中的广泛应用,通过深度学习方法来提升命名实体识别任务的性能已经成为一种普遍流行的方式,因此,如何充分利用网络文本特性并结合深度学习方法,进而提出适用于网络文本的命名实体识别框架成为了本文的研究重点。鉴于微博媒体行业的文本内容较为口语化的特点,本文将微博文本规范化过程与命名实体识别任务联合建模,提出联合文本规范化的命名实体识别框架;将非规范的网络文本通过查找非规范词典替换非规范词的方式进行规范化处理,并提出了融合注意力机制的实体识别模型进一步改善了面向微博文本的实体识别性能。本文的主要创新点和贡献如下:1.提出一种基于非规范词特征的word2vec训练词向量的方法计算相似度,通过训练非规范词的高维词表,将组合实体向量表示与高维词表的向量进行相似度计算;提出K-means聚类和Brown聚类算法对微博实体进行聚类,得到候选规范词集合以确定最佳候选的实体,最后将非规范实体替换成规范的实体。2.提出一种确定候选规范词数目的方法,使用规则对其过滤;最后依照非规范词典对文本进行规范化处理。3.提出一种融入Attention机制的长短时记忆网络(LSTM),用于关注与实体相关的信息,并缓解上下文信息冗余或出现噪音的问题。在设计编码层时,将双层双向长短时记忆网络(SC-BiLSTM)模型作为向量的编码层,提取上下文的深层语义信息,来辅助实体识别任务。本文针对以上方法进行对比实验,实验结果表明:相较于Hassan提出的文本规范化模型的精度提升了 4%,SC-BiLSTM_ATT模型的精度在基线系统的基础上提升了 10%;由此可见,本文提出的联合规范化的实体识别框架适用于面向微博文本的命名实体识别任务,并且提出的SC-BiLSTM_ATT模型与传统模型相比较能有效提升实体识别的性能。