面向轨道交通规范的命名实体识别方法研究

来源 :西安理工大学 | 被引量 : 0次 | 上传用户:wanyuequn
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
命名实体识别作为自然语言处理的一项重要子任务,是文本信息抽取的关键。目前针对开放域的中文命名实体识别工作已经取得了一定的进展,而针对不同垂直域的中文命名实体识别工作相对较少。设计规范作为建筑设计阶段的知识依据,在建筑工程设计环节中,起着决定性作用。本文面向轨道交通设计规范,首先定义该领域内五种命名实体类别,然后提出基于规则和统计的方法以及基于深度学习的方法,具体研究内容如下。(1)面向轨道交通设计规范的实体类别定义。作为命名实体识别的基础,本文首先对轨道交通设计规范中的实体类别进行定义。在具体实体类别定义过程中,以问题为导向,综合考虑后续知识图谱构建内容,结合轨道交通设计规范文本描述特点,同时参考其他垂直域命名实体类别定义,制定服务于知识图谱构建的实体类别定义。最后,将轨道交通设计规范实体类别定义为条目信息、属性值、规范名、抽象实体和专有实体共五类。(2)基于规则和统计的命名实体识别方法。本文首先对领域特定信息进行识别,然后基于现存知识库作为词典利用改进的双向最大匹配算法进行匹配,并设计算法进行消歧,得到初步结果。然后针对设计规范文本描述特点,制定边界修正规则和组合词更新规则,优化初步处理结果。接着,基于频繁模式树(FP-Tree)挖掘正例中C-Value等参数的频繁项集,对规则处理后结果做正例筛选,从而得到最终结果。通过对方法进行拆解实验,验证了各个模块对模型的贡献度。最后,与现存三种经典模型进行对比实验,并分析结果。(3)基于深度学习的命名实体识别方法。本文首先基于循环神经网络构建BiLSTM-CRF(Bidirectional Long Short-term Memory+Conditional Random Field)模型,然后在经典框架的基础上添加注意力机制,搭建Att-BiLSTM-CRF(Attention+Bidirectional-Long Short-term Memory+Conditional Random Field)模型。最后,本文通过参数选择实验选出最优参数设置,基于此对比了传统方法和神经网络模型在相同轨道交通设计规范数据集上的实验结果,得到最优模型,验证了基于深度学习的方法在中文轨道交通设计规范上的有效性。实验结果表明,本文提出的方法可以较好的解决轨道交通设计规范的中文命名实体识别问题,对促进轨道交通设计规范的知识图谱构建具有一定的积极作用。
其他文献
隐喻和转喻,作为一种语言现象,普遍存在于我们的生活当中。传统意义上,隐喻和转喻是一种修辞手段,隐喻和转喻的翻译研究主要是从修辞学的角度出发。1980年Lakoff,G.&Johnson,
为适应社会的发展,以及当前日益激烈的国际竞争,我国的教育改革更重视人才综合素质的培养,于是新课程改革注重培养学生的学科核心素养。同时,习近平总书记在如何上好思想政治理论课的会议上特别强调,思想政治理论课教师思维要新,要创新课堂教学。而初中的《道德与法治》课程任课教师一直致力于教学方法、教学手段和教学艺术的优化与改进。通过重视发挥学生的主体作用,以达到让学生在自主学习和合作学习的基础上,培养他们的发
业主委员会(简称业委会)作为在社区治理中维护业主合法权益而发展起来的新兴自治组织,在过去二十多年的发展过程中,作为以物权为基础的业主组织的代表在于开发商、物业服务公
伴随着全球经济的一体化发展,世界经济已经完全迎来了一个全新的时代,那就是知识经济时代,知识经济时代的到来使得企业的经营管理发生了巨大的变化,给企业的财务管理提出了更
力觉临场感遥操作系统的操作环境常常是未知的,为使本地操作者可以无障碍、无失真地实时感知远地环境特性,需对未知的操作环境在线建模.然而在该研究领域目前还没有找到完善
全媒体时代,新闻的传播方式和受众的信息需求日益多元化,对于传统媒体来说,为了能适应全媒体时代发展环境,提升新闻报道质量,适应受众的阅读习惯以及满足他们的信息需求,也开
介绍了其于Lonworks现场总线技术的控制系统的软件及硬件解决方法,提出了对Lonworks节点图形化编程以及实现infranet到internet一体化的技术方案。
我国消费税自1994年设立以来,在组织财政收入、调节产业结构、优化资源配置、生态环境保护等方面发挥了积极的作用,但是,随着我国经济体量的不断增加和经济结构的转型发展,居民消费结构和消费理念也在不断改变,营改增后税制得到进一步优化,消费税征收范围的不合理性问题更加突出,虽然消费税征收范围经历了多次改革和调整,由于我国市场经济发展迅速,一系列税收政策没有及时更新,所以消费税征收范围有待调整。在当前新一
简述了软件自动测试的主要步骤,并以VHDL(VHSICHardwareDescriptionLanguage,超高速集成电路硬件描述语言)为例,详细介绍了硬件描述语言的自动测试方法和步骤,讨论了软件自动