论文部分内容阅读
军事文本的自动化处理是军事信息化的重要组成部分,军事类命名实体识别是军事文本自动化处理的基础性工作,英文武器装备名就是一类重要的军事类命名实体。英文武器装备名构成成分种类复杂,构成模式数量繁多,再加上军事领域标注语料的稀缺,使得英文武器装备名识别较为困难。同时,英文武器装备名具有明显的领域特征,可以为英文武器装备名自动识别提供支持。本文以英文武器装备名自动识别为具体任务,论证领域特征在特定领域实体识别中的有效性。本文主要研究内容和创新点如下:(1)本文首先展开对英文武器装备名的构造规律研究。在揭示英文武器装备名这一特定语言现象命名规律的同时,得到了英文武器装备名构成要素词典与构成模式集两大领域知识库。在两大领域知识库的支持下,本文设计了规则识别算法分别对英文武器装备名词条与文本中的英文武器装备名进行识别。前者的目的在于验证本文构建的英文武器装备名构成成分分类体系的描写能力,以说明本文英文武器装备名构造规律研究的科学性;后者的目的在于通过规则识别方法,分析英文武器装备名识别的难点与关键点。(2)以两大领域知识库为语言资源,本文将英文武器装备名的领域特征分别融入到了CRF(Conditional Random Fields,条件随机场)模型与深度学习模型当中,并通过与词性特征、依存句法特征的实验结果进行对比,进一步论证了领域特征在特定领域实体识别中的有效性。在具体研究中,本文还针对英文武器装备名领域特征的特点,对CRF模型与Bi-LSTM(Bidirectional Long-Short-Term Memory,双向长短时记忆网络)+Multi-Head-Attention+CRF模型进行了改进。(3)在实验论证领域特征在特定领域实体识别任务中有效性的基础上,本文通过设计七个评价指标对词性特征、依存句法特征与英文武器装备名的领域特征在语料中的分布进行了统计调查。以此为基础,本文为“领域特征对特定领域实体识别任务的支持作用强于普通语言学特征”这一现象提供了一个较为科学合理的解释,进而从原理层面论证了领域特征在特定领域实体识别任务中的有效性。(4)通过在不同语料规模下进行实验,本文揭示了CRF模型与Bi-LSTM+Multi-Head-Attention+CRF模型在利用特征方面的特点。值得一提的是,本文发现词性特征与依存句法特征对Bi-LSTM+Multi-Head-Attention+CRF模型产生正向支持作用对语料规模有一定要求,而英文武器装备名的领域特征则没有这一要求。(5)通过将CRF模型与Bi-LSTM+Multi-Head-Attention+CRF模型的识别效果进行对比,本文发现在一定条件下,CRF模型的表现要优于Bi-LSTM+Multi-Head-Attention+CRF模型。这对于研究人员根据任务的不同(尤其是工程实践中)选取不同的模型与特征组合具有一定的指导意义。(6)从英文武器装备名识别这一具体任务出发,本文对特定领域实体识别进行了一般性的任务评估,并提出了一些具体的方法性建议,期望为相关领域研究者提供更多参考和借鉴。本文对英文武器装备名这一特定领域实体识别任务进行了较为全面的研究,能够为下一步构建实用性的英文武器装备名识别系统提供有效的技术思路和方法。此外,本文对其它军事类命名实体以及其他特定领域实体的识别研究都有一定的借鉴和参考价值。