特定领域命名实体识别通用方法的研究

来源 :北京交通大学 | 被引量 : 9次 | 上传用户:doer
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
命名实体识别对文本中固有名称、标识进行识别,是自然语言处理的基础任务之一,被广泛用于信息抽取、机器翻译、信息检索等多种任务中。命名实体识别在多种领域已经取得了较好的识别效果,但识别方法多根据领域文本特点设计,不具有普遍性与适应性。经过调研与分析,本文尝试使用基于条件随机场、自学习算法和主动学习算法相结合的方式,实现一个特定领域命名实体识别的通用方法,适用大多数特定领域。特定领域命名实体识别的通用方法实现过程中有两个难点。首先,使用条件随机场对特定领域进行命名实体识别时,根据领域特性选取的特征具有领域独立性,且选取特征的人员需要丰富的专业领域知识。其次,特定领域文本的大规模标注语料难以获取。针对上述两个难点,本文完成了以下工作:(1)基于词向量相似度特征的条件随机场训练。首先使用Word2vec进行词向量训练,通过词向量本身验证词向量包含丰富的语义和领域特性,以及不同语料与不同维度的词向量具有一定的差异性。然后选取任何领域都包含的通用统计特征,以及词向量相似度特征,以递增式学习的策略选择最小完备特征集合参与条件随机场的训练,使得模型具有适应性和领域性。本文在交通领域文本验证了该方法,实验结果表明,词向量相似度特征对提高识别效果有积极的作用。但由于标注样本过少,识别效果仍不理想。(2)在基于使用词向量相似度特征的条件随机场的基础上,采用自学习算法和主动学习算法相结合的方式进一步训练模型。迭代过程中,利用主动学习选取低置信度样本进行人工标注,克服了自学习算法选取过多与原训练样本效用相似数据的问题,以及因初始分类器错误导致标注错误累积的问题,同时利用自学习算法选取高置信度样本自行标注,克服主动学习算法不能有效利用富含信息量样本的问题。实验结果表明,结合上述两种方法的迭代训练相较于仅使用一种方法的训练能更有效地提升识别效果。并通过单一变量变化的方法验证了置信度阈值的选取对模型性能的影响以及人工标注量的影响。
其他文献
达芬奇(da Vinci)手术机器人系统在我国大陆地区于2007年由中国人民解放军总医院率先引入,目前已有26家医院配置并开展手术,累计机器人手术9 675台,其中泌尿外科3 122台,现就
1 植物名称大花萱草‘奶油卷’为百合科(Lillaceae)萱草属(Hemerocallis)多年生草本植物。
蒙文通是疑古运动中涌现出来的古史专家。他的中国传说时代古史研究既与"疑古派"学分两途,同时二者间又存在着千丝万缕的联系。剖析蒙氏之学并参考"疑古派"以外学人的正面性评价,
<正>日前,由北京化工研究院燕山分院研制、催化剂分公司负责生产的YS-9010银催化剂,在上海石化1号乙二醇装置完成近4个月驯化。结果显示,该批催化剂比原YS-8810银催化剂选择
目的:对风湿定片中的丹皮酚进行含量测定。方法:采用HPLC法,以Diamonsil—C18为色谱柱,以甲醇-水(50:50)为流动相,流速为1.0mL/min,检测波长为274nm。结果:丹皮酚在6—70μg/mL范围内线性
茶薪菇,又名茶树菇,该菇肉嫩柄脆、味纯清香、口感极佳,产品出口内销均受欢迎。采用集约化立体高产栽培,生物效率可达150%-200%。现特将其生长发育条件及高产栽培技术介绍如下。
“设官为民”是中国传统政治思想视阈中最为典型的官民关系命题和官僚制度的基本原理。这一命题的基本思路是:从官僚产生的形上依据来说,上天爱民,设官代天牧民;从官僚权力的直接
药物性皮疹是儿童过敏性疾病的一个重要部分,为了探讨儿童药物性皮疹的年龄分布、皮疹类型、致敏药物及治疗的特点,本文对我院104例药物性皮疹住院患儿的临床资料进行分析,现报