汉语文本人名识别改进方法研究

来源 :北京语言大学 | 被引量 : 4次 | 上传用户:hongtu200909
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
命名实体识别是近年来中文信息处理领域研究的热点之一。命名实体是文本中信息最重要的载体,提高命名实体识别的准确率不仅能提高分词精度,而且对于提高信息抽取、信息检索、机器翻译、语音合成等应用系统的性能也有重要意义。目前命名实体识别的基本路线是:首先分析各种专名的内部结构、用字(词)特征,形成专名资源表;其次对大规模专名表和人工标注语料库进行统计学习,训练出适当的语言模型;最后用训练得到的语言模型识别候选专名。在这种思路的指导下,命名实体识别取得了一定的成果。但是,由于专名内部结构和特征的封闭性,各种识别方法在专名资源表构造和内容上逐渐趋于统一。就人名识别来说,一方面,以往的研究大多都是在较简单地分析上下文的基础上运用统计模型进行识别,对人名上下文特征的挖掘还不够细致、深入;另一方面,目前流行的基于语料库和统计语言模型的识别方法在概率估值问题上存在弊端,不能反映语言的客观实际。针对这些问题,我们一方面在人名用字和上下文特征上下功夫,完善了人名用字信息库,通过对几个高频姓氏的实例分析,挖掘了许多有用的正反面特征;另一方面,运用一种改进的可信度估值方法,计算了人名用字的可信度和人名上下文特征的可信度。实验证明,这些措施对于提高人名识别的准确率有积极作用。这种方法也为其他专名的识别提供了借鉴。
其他文献
在当前我国城市化进程日益加快的环境下,人口的流动和迁移对人们的语言使用及心理都有着巨大的影响。本文以定性研究和定量研究相结合的方法概括总结了深圳河南移民的语言使用
本文致力于在关联理论的理论框架内建立一个新的会话语篇的连贯理论。由关联理论的性质决定,本文的理论框架属于认知语言学和语用学的范畴。之所以选择会话语篇作为研究对象
两晋虽然只持续了大约一百五十年的时间,但是这一时期却诗人辈出。著名的诗人傅玄、张华、陆机、潘岳、左思、陶渊明等均出现在这个时代。晋代也是上承曹魏下启南北朝的一个年
口译中的预测是一个分析综合和逻辑推理的过程,也是先存信息和新信息加工整合的认知行为,译员的认知库在口译过程中不断被关联、激活、应用和补充,指导译员选择性听辨的思维
杨树达先生的语源学研究既继承前人,又有许多创新,在学术上独树一帜,影响广泛。他从汉语单音节字词的形、音、义多方入手,探寻造字之源以及语言发展演变的规律,旁征博引,在文字考释
本文主要从汉语语法史的角度探讨了动结式的产生和发展,考虑到动结式涉及的内容多而且复杂,因此本文将讨论的对象限定在不带“得”的动结式,全文共分四章。在综述动结式研究的历
文章运用2000~2007年间统计数据,对武汉城市圈各城市城镇居民人均可支配收入差距,分别从绝对差距、相对差距、库兹涅茨"倒U"型假说、收敛性等角度,进行了详细的分析。结果表明
语言学习的目的是理解和使用语言。语言的使用与理解离不开语境。交际行为不仅仅是单纯的语言解码过程。语境理论为我们提供了研究如何参与交际以及在交际过程中如何发挥语境
古壮字是在汉字的影响下,模仿汉字的造字方法,直接借用汉字或利用汉字作偏旁部首创造的方块文字,是一种特殊的文献资料,其性质与域外对音相同。 在广西,粤语(含白话、平话)是主
研究2016年全国各地中考作文命题,从命题形式、命题内容、命题指向、命题设计四个方面,分析指出2016年中考作文命题呈现出的特点,为2017年中考作文备考提出四个方面的建议。