面向特定领域的命名实体识别技术研究

来源 :浙江大学 | 被引量 : 0次 | 上传用户:quhongliangs
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
知识库的出现使得互联网海量的知识能够被搜索、智能问答、阅读理解等系统高效地利用,而知识库的构建则需要将海量的非结构化文本数据转变为结构化数据并存储,在这个构建过程中,最基础且重要的步骤为命名实体识别,即识别出非结构化文本中所有的专有名词并对其进行实体分类。基于深度学习的命名实体识别模型已经成功地运用在新闻、论坛等通用领域,而在特定领域中,由于缺少标注训练语句,深度学习模型往往表现较差。针对上述问题,本文从两个不同角度分别提出了两种方法,来解决深度学习在面向特定领域实体识别过程中的问题:(1)基于归纳学习的命名实体识别学习框架。该框架能够向已有特定领域命名实体识别模型(老师)学习,并将所学知识迁移到任意深度神经网络模型(学生)中。该框架使用归纳学习和多示例学习技术,使得学生模型从老师模型学得知识同时免受数据噪声干扰。该框架能够在小领域内帮助深度学习模型有效地利用现有资源(模型、标注数据和未标注数据)。在疾病领域上的实验也证明,在没有任何标注数据的情况下,该框架能够有效地提升深度命名实体识别模型的识别准确率。(2)基于对抗训练的多任务命名实体识别学习方法。该方法提出一种“共享-私有”模型,综合特定领域内多个相关但不相同的子领域任务数据集信息,在对抗训练的帮助下,共同提升各个子领域内实体识别准确率。该方法在生物医学领域内的实验也证明了其能同时提升多个子领域命名实体识别准确率。本文所提出的两种方法均能在一定程度上缓解命名实体识别任务在特定领域内标注数据少且昂贵的难题。本文的研究成果应用于973计划“中国工程科技知识中心建设”项目中,相关成果发表于2017年自然语言处理重要国际会议EMNLP。
其他文献
文章在对创新型中小企业成长能力内涵分析的基础上,提出了相应的评价指标体系,并利用解释结构模型研究了指标之问的逻辑关系。对创新型中小企业成长能力评价指标权重和评价方法
目的系统评价吸入糖皮质激素(ICS)治疗对哮喘儿童身高的影响。方法全面检索万方、知网、CENTRAL、EMBASE、MEDLINE、CINAHL等数据库中1979年至2014年10月ICS治疗对哮喘儿童身高
目的研究针刺运动疗法治疗膝骨关节炎的效果。方法在我院于2009年12月—2011年12月收治的膝骨关节炎患者中随机选出80例作为本次研究的观察对象,将患者以随机法分入到观察组
黄土作为一种特殊土,广泛分布于世界各地,各地区黄土的工程地质性质在区域上存在一定的变化规律。这种变化规律和黄土在大区域上的变化规律是一致的,本文从黄土的微结构方面
分析制定粮食烘干机保险政策的必要性和可行性,提出在保险条款费率设计时应当坚持的原则,结合与江苏省拖拉机、联合收割机保险政策比对,对粮食烘干机保险标的、保险责任、保
采用电化学法,对石墨烯负载的Pd纳米粒子表面进行少量的Ag沉淀修饰,用于碱性介质下的1,2-丙二醇电催化氧化反应,检验Ag修饰对Pd/石墨烯电催化活性的影响。仪器和电化学分析和
政府的自利性具有扩张性特征,如果不加以遏制,可能导致"权力寻租"行为的盛行,削弱政府的执行力,影响公共政策的公正性,并造成部门利益法制化和群体腐败的严重后果。因此,只有通
现行<铁路桥涵技术规范>和<铁路工程抗震设计规范>均没有考虑地震作用下简支梁桥发生的碰撞问题,通过对一座两跨16 m简支梁桥的分析可以知道,在简支梁桥一般所采用的梁间距下
为改善非织造材料的过滤精度,通过高温热压复合法将PET非织造材料和PTFE微孔膜结合,构建非对称结构覆膜滤料,研究高温热压复合工艺参数与PTFE微孔膜孔径对覆膜滤料结构、剥离
针对资源紧缺情况下多受灾点多资源多出救点的铁路突发事件,利用AHP模糊综合评价法得出各受灾点受灾程度的评分值,在此基础上建立以资源缺失程度损失最小、资源运输成本最小