面向中文医疗文本的命名实体识别研究

来源 :华东师范大学 | 被引量 : 0次 | 上传用户:upskycx
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
命名实体识别主要研究从非结构化文本中识别出包含特殊含义的词汇或专有名词,是自然语言处理领域中一项重要的基础性技术,在信息检索、问答系统等领域有着广泛的应用。目前,大量工作聚焦于开放域的命名实体识别且以英文为主,本文则主要研究中文医疗文本的命名实体识别问题,以不同类型的医疗文本为研究对象,既有以临床电子病历为代表的专业医疗文本,也有来自大众医疗领域的医疗搜索查询和在线问答数据。本文首先基于神经网络方法构建基本框架,然后提出外部知识获取与融入方式来利用医疗词典信息增强模型效果,最后基于迁移学习方法利用外部数据进一步提升识别效果。本文的主要工作和贡献如下:·基于神经网络方法的命名实体识别 为避免对特征工程的依赖,本文首先基于神经网络方法构建解决命名实体识别问题的基本框架NN-CRF,标注和整理得到三个中文医疗文本的命名实体识别数据集。通过实验比较了字粒度输入和词粒度输入对识别效果的影响,验证了神经网络方法在不依赖特征工程前提下,相比传统统计机器学习方法仍然可以取得更好的效果。另外,对比三种典型神经网络模型的识别效果差异,并给出合理设计模型的指南。·基于外部知识增强的命名实体识别 考虑到医疗领域存在大量的外部资源,本文通过引入外部知识以辅助模型识别在训练集中很少出现或没有出现的实体。本文以医疗词典信息为例,提出两种获取外部知识的方式,分别是特征模板法和字词联合法,并设计两种外部知识的融入方式,即直接输入法和间接输入法,最后通过实验验证上述方法能够增强模型的泛化能力。·基于外部数据提升的命名实体识别 为缓解缺乏标注数据的问题,本文基于迁移学习方法利用外部数据提升已有模型的效果。主要探究两种解决思路,其一,以语言模型为任务利用大量无标注数据预训练模型,借助参数迁移加速模型收敛和提升效果。其二,以多任务学习方式充分利用相关的标注数据集,提出共享私有模式的参数共享框架,并且在改进的迭代策略下有效训练,从而更大限度地提升目标领域的识别效果。
其他文献
逆序词对是现代汉语词汇的重要组成部分,由于组成的汉字和读音相同,大部分意义极其相近,在生活中的使用频率也比较高。对汉语作为第二语言的学习者来说,逆序词的认识、理解和
理解是解释学研究的核心问题。伽达默尔的解释学是西方解释学的最新发展,尤其强调理解的对话性。他认为对文本的理解过程具有对话的特征,表现为文本与读者的对话,读者与作者
在现代汉语日常会话中,语气词对人们成功交际发挥着不可小觑的作用。语气词意义的空灵和结构的灵活性使许多专家学者们难以对其进行全面且系统的研究。近年来,一些学者开始对
在生产过程中,由于受到免疫接种、环境刺激等多种应激因素的影响,维持鸡正常的免疫功能、提高机体的抗应激能力日显重要。维生素A(VA)是动物机体所必需的营养物质,具有保护机
传统的摄影/摄像测量技术的应用基础是摄像机能够直接拍摄到被测物体的图像,因此对不通视目标三维位置与姿态的测量无能为力。为了解决不通视目标位姿测量问题,本文提出了“
西周在人类历史发展进程中占据十分重要的位置,因此研究周族的起源具有十分重要的意义。本文从周族的一个祖先,不窋奔戎狄之后谈周族的起源,不窋到古公亶父共十代均"窜于戎狄
课程设置取决于课程选择的价值取向,布鲁巴克的课程史观以西方课程的历史发展为脉络,从各方面分析了西方课程发展的轨迹和特征,对当前中学数学课程设置有如下启示:应处理好课程内
心理词汇的联想模式是二语习得研究领域的重要议题,通过实证性研究有助于揭示不同二语水平学习者的二语心理词汇联想模式和特征。本研究对受试的词汇联想进行分析和讨论,为二
词块理论被提出以来受到了语言学界越来越多的关注。学者们从语言学、心理学的角度对其进行过研究和分析,后又将其运用于教学领域。词块教学,是上世纪九十年代提出的一种教学
明清之际西源外来词大量输入汉语词汇系统,对近代汉语和外来词的研究都极为重要,其中因为这一时期国人渴求了解西方,世界地理大发现又极为盛行,所以外语地名译名在译介的西方