论文部分内容阅读
命名实体识别作为自然语言处理的一项重要子任务,是文本信息抽取的关键。目前针对开放域的中文命名实体识别工作已经取得了一定的进展,而针对不同垂直域的中文命名实体识别工作相对较少。设计规范作为建筑设计阶段的知识依据,在建筑工程设计环节中,起着决定性作用。本文面向轨道交通设计规范,首先定义该领域内五种命名实体类别,然后提出基于规则和统计的方法以及基于深度学习的方法,具体研究内容如下。(1)面向轨道交通设计规范的实体类别定义。作为命名实体识别的基础,本文首先对轨道交通设计规范中的实体类别进行定义。在具体实体类别定义过程中,以问题为导向,综合考虑后续知识图谱构建内容,结合轨道交通设计规范文本描述特点,同时参考其他垂直域命名实体类别定义,制定服务于知识图谱构建的实体类别定义。最后,将轨道交通设计规范实体类别定义为条目信息、属性值、规范名、抽象实体和专有实体共五类。(2)基于规则和统计的命名实体识别方法。本文首先对领域特定信息进行识别,然后基于现存知识库作为词典利用改进的双向最大匹配算法进行匹配,并设计算法进行消歧,得到初步结果。然后针对设计规范文本描述特点,制定边界修正规则和组合词更新规则,优化初步处理结果。接着,基于频繁模式树(FP-Tree)挖掘正例中C-Value等参数的频繁项集,对规则处理后结果做正例筛选,从而得到最终结果。通过对方法进行拆解实验,验证了各个模块对模型的贡献度。最后,与现存三种经典模型进行对比实验,并分析结果。(3)基于深度学习的命名实体识别方法。本文首先基于循环神经网络构建BiLSTM-CRF(Bidirectional Long Short-term Memory+Conditional Random Field)模型,然后在经典框架的基础上添加注意力机制,搭建Att-BiLSTM-CRF(Attention+Bidirectional-Long Short-term Memory+Conditional Random Field)模型。最后,本文通过参数选择实验选出最优参数设置,基于此对比了传统方法和神经网络模型在相同轨道交通设计规范数据集上的实验结果,得到最优模型,验证了基于深度学习的方法在中文轨道交通设计规范上的有效性。实验结果表明,本文提出的方法可以较好的解决轨道交通设计规范的中文命名实体识别问题,对促进轨道交通设计规范的知识图谱构建具有一定的积极作用。