基于KL-HMM模型的命名实体识别研究

来源 :东北大学 | 被引量 : 0次 | 上传用户:chenxiaoyi1988
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着信息技术的发展和人工智能的应用,自然语言处理相关的研究越来越受到重视。其中命名实体识别是自然语言处理初期很关键的一个步骤,识别出语料文本中的时间、数字、人名、地名和组织机构等实体在许多研究领域起着很重要的作用。在实际应用过程中,很多文本不是闭合集,而是开放集。在开放集的文本中,对于音译实体识别到的文字会出现不同的翻译文字,在识别中会产生很高的错误率。论文将KL距离的机制加入模型中,学习其它文本语料中可能出现的音译人名的差异,然后进行参数校准。并且针对防止KL-HMM模型的过度拟合问题,对不同的语料库的适应性进行了验证和分析,提高了识别的效率。最后在实际问题中进行验证,编写命名实体识别程序,测试数据进行比对。实验验证指标使用准确率R和召回率P的综合指标F测度。在实验对比中,使用基于KL-HMM的模型比原先的HMM模型在音译人名F测度上提高了 15.44%,音译地名提高了 29.27%,音译机构名提高了 25.67%,但是每一层参数校准后,会对中文实体产生轻微影响,实验结果在人名、地名和组织机构实体上分别提高了 1.71%、4.66%和0.41%。并且使用自适应调整后F值分别提高了 0.38%、0.36%、0.25%。验证了基于KL-HMM方法对音译命名实体识别性能有很好的提高能力。
其他文献
中东铁路是俄国在中国东北强行修筑的铁路线,中俄签订了两个不平等条约,即1896年《中俄密约》和1898年《旅大租地条约》,使得俄国获取了中东铁路的权益。中东铁路的干线是从
近年来,我国交通基础设施建设迅猛发展,交通需求量日益增大,与此同时我国地形错综复杂,山峦众多,因此在要求较高的公路与铁路的建设过程中,隧道因具有很多方面的优越性而被广泛采用,比如缩短运行里程、改善路线、提高经济效益。尤其在西南山区和东南丘陵地区,高等级公路的隧线比通常可达15%~30%,而高等级铁路的隧线比甚至高达25%~50%。基于我国交通基础设施中山岭隧道数量庞大、病害严重、维养经费不足的现状
本文选用无机物基材——介孔二氧化硅和有机物基材——纳米凝胶,构建了两种类型的药物控释体系。一是基于介孔二氧化硅控释系统中的纳米控制器(gatekeeper)设计理念,选用生物相容性良好的儿茶素和绿原酸为纳米控制器,构建了一种新型的介孔二氧化硅基pH响应性药物长效缓释系统。由于纳米控制器与钛酸异丙酯之间形成的钛酸酯键在中性和碱性条件下能够缓慢水解,使得纳米控制器打开,负载在介孔孔道中的客体分子得以释
在船舶建造过程中,很大一部分工作是船体双曲率外板的加工制造。随着造船业的发展,船体曲板加工的质量和效率会显著影响整个船舶的整体制造周期,进而影响建造成本。目前,船厂普遍采用水火弯板方式来加工双曲度外板。这种方法利用氧气和乙炔燃烧产生的热量作为热源,但是具有加工质量不稳定、加热成型效率低、污染严重等缺点。电磁感应加热基本原理是:在钢板上方的线圈中通入高频交流电,该交流电在钢板内部产生高频电磁场,高频
上世纪80、90年代时,羊的发展方向发生了转变,开始了肉毛兼用的年代。中国成为了全球羊养殖数量、出栏量以及肉产量首屈一指的国家,养殖模式逐渐由散养转变为规模化养殖。在
超短脉冲因其极短的脉冲宽度和极高的峰值功率,自诞生起就受到研究学者的高度关注。上世纪70年代,研究人员提出了泵浦探测技术,通过精密位移平台调节探测光与泵浦光之间的相
本论文通过浸泡试验、析氢实验、电化学分析、XPS测试等多种表征手段,通过对比研究了稀土元素Nd、Y以及热处理对Mg-8Li-3Al-2Zn镁锂合金显微组织、析氢腐蚀速率以及腐蚀形貌等的影响规律;并根据电化学结果以及形貌分析等测试结果探索稀土元素Nd、Y以及热处理影响Mg-8Li-3Al-2Zn合金的腐蚀性能的机理。显微组织分析表明,稀土元素Nd的添加使得合金的晶界处形成了Al_2Nd相。在合金铸造
心血管疾病是对人类健康构成重大威胁的疾病之一,而心肌梗死的高发病率与高死亡率更是成为人类健康的头号敌人。心肌梗死发生后,大多数患者心电图(Electrocardiogram,ECG)会
目的:了解调查医院临床医生继续职业发展分层次培训,评估、验证模型设置的合理性、有效性及适用性。在分层次培训模型的基础上建立形成黄河三角洲区域内科学性、合理性及可推
随着语音识别技术的发展,将其应用于智能家居,通过语音信号控制家用电器,实现智慧生活,也成为一个极具挑战的问题。针对这一问题,本文主要对基于孤立词的语音识别算法进行了