论文部分内容阅读
命名实体识别主要研究从非结构化文本中识别出包含特殊含义的词汇或专有名词,是自然语言处理领域中一项重要的基础性技术,在信息检索、问答系统等领域有着广泛的应用。目前,大量工作聚焦于开放域的命名实体识别且以英文为主,本文则主要研究中文医疗文本的命名实体识别问题,以不同类型的医疗文本为研究对象,既有以临床电子病历为代表的专业医疗文本,也有来自大众医疗领域的医疗搜索查询和在线问答数据。本文首先基于神经网络方法构建基本框架,然后提出外部知识获取与融入方式来利用医疗词典信息增强模型效果,最后基于迁移学习方法利用外部数据进一步提升识别效果。本文的主要工作和贡献如下:·基于神经网络方法的命名实体识别 为避免对特征工程的依赖,本文首先基于神经网络方法构建解决命名实体识别问题的基本框架NN-CRF,标注和整理得到三个中文医疗文本的命名实体识别数据集。通过实验比较了字粒度输入和词粒度输入对识别效果的影响,验证了神经网络方法在不依赖特征工程前提下,相比传统统计机器学习方法仍然可以取得更好的效果。另外,对比三种典型神经网络模型的识别效果差异,并给出合理设计模型的指南。·基于外部知识增强的命名实体识别 考虑到医疗领域存在大量的外部资源,本文通过引入外部知识以辅助模型识别在训练集中很少出现或没有出现的实体。本文以医疗词典信息为例,提出两种获取外部知识的方式,分别是特征模板法和字词联合法,并设计两种外部知识的融入方式,即直接输入法和间接输入法,最后通过实验验证上述方法能够增强模型的泛化能力。·基于外部数据提升的命名实体识别 为缓解缺乏标注数据的问题,本文基于迁移学习方法利用外部数据提升已有模型的效果。主要探究两种解决思路,其一,以语言模型为任务利用大量无标注数据预训练模型,借助参数迁移加速模型收敛和提升效果。其二,以多任务学习方式充分利用相关的标注数据集,提出共享私有模式的参数共享框架,并且在改进的迭代策略下有效训练,从而更大限度地提升目标领域的识别效果。