中文命名实体识别方法研究

被引量 : 0次 | 上传用户:csnzz
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
中文命名实体(Named Entity,NE)识别是指识别出文本中特定的实体。它是信息抽取、机器翻译、自动问答等多种自然语言处理技术的基础。但是,由于受中文自身特点的限制,中文命名实体识别一直相当困难。为了促进其他技术和应用的发展,研究中文命名实体的识别技术是很有意义,也是非常重要的。目前中文命名实体识别领域主要有规则和统计两类方法。统计方法以统计模型为基础,而统计模型可大体分为产生式模型和条件概率模型。本文研究的目的就是要讨论中文命名实体识别的几种方法,并分析方法之间的性能差异。为此,文中主要说明了四种中文命名实体识别方法,包括规则、隐马尔可夫模型(Hidden Markov Model,HMM)、最大熵模型(Maximum Entropy,ME)和条件随机域(Conditional Random Fields,CRF)。本文在利用规则的方法进行NE识别时,针对各类NE的特点制定了相应的规则,很好的描述了NE的内部结构和外部特征,达到了较高的准确率。但是规则的建立过程费时费力,且规则不易移植,代价高。HMM、ME和CRF都是统计模型。HMM是产生式模型的典型代表,ME和CRF属于条件概率模型。通过对三种模型的实验对比和分析,本文证明了基于CRF方法的NE识别性能最好。另外,本文还对ME模型进行了比较深入的研究,对比了它在不同的标注集、不同的特征模板以及加入语言学特征的情况下的性能变化。最后还尝试了层次的ME模型,提高了机构名的识别效果。总的来说,中文命名实体识别问题是自然语言处理领域的一个基础的重要问题。本文在不同方法上的实验和分析为NE识别做了一些有益的尝试,取得了一些初步成果。随着中文NE识别技术研究的不断深入和发展,NE识别的性能将会获得更大的提高。
其他文献
杜拉斯的文学作品在中国广泛译介,使得其对广西女作家纪尘的早期创作产生影响成为可能。纪尘早期创作中带有明显的“杜氏”烙印,具体表现在:写作体裁上运用自传体小说的形式,
结合教学实践,论述了中职语文教学课外拓展延伸的必要性,结合由课堂教学向课外拓展的尝试中发现的一些问题提出一些注意问题,中职语文教学课外拓展延伸是其课程性质与特点的
1987年,甘肃省镇原县博物馆文物普查时,在该县三岔高庄遗址出土人头形器盖盖钮一件,被国家文物局文物鉴定专家组定为国家一级文物(图一)。
上市公司每次资产重组的背后都有一个承诺,只是承诺将至,大股东的“嘴脸”不尽相同,投资者唯有望而兴叹?投资者兜里的钱,上市公司眼里的“菜”,如今吃法不同,结果不变。上市就拿钱,抛
通过多年对历史教学方法的改革和探讨,提出在新的教育形势下对初中历史教学的看法,希望能增强中学生学习历史的兴趣,对新形势下初中历史教育教学有所帮助。
由海峡两岸著名学者参加撰写的大型《历史反思丛书》于1988年5月开始在大陆和香港同时陆续出版.这套丛书共50部,预计到1993年出齐.这套丛书主要以反思中华民族的历史为主,目
戏剧不仅是一门综合的艺术,熔美术、音乐、舞蹈等各门艺术于一炉的艺术形式,更是人与人交流的工具、认识自我的过程,宣泄心理感受的方式以及学习语言的手段。文章从语言学、
概述了国内外在中央空调水系统优化控制领域的研究成果 ,总结了以往研究的特点 ,分析了今后的研究方向。
医疗仪器是融合高科技内涵最多的现代化产品之一,是最能体现一个国家的科学技术水平。21世纪大量出现的微电子成果,大多数都是最先在医疗仪器领域获得应用,科学技术迅速发展
21世纪的现代化社会中,合作意识是让人能够立足于社会的关键要素,更是学习、生活过程中的必备素养。小学语文教学过程中,构建和谐民主的课堂气氛,让学生在共同的学习讨论过程