基于支持向量机的中文组织机构名识别

来源 :上海交通大学 | 被引量 : 0次 | 上传用户:ananqiqi
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
中文组织机构名的识别是中文信息处理中的一个重要任务,也是命名实体识别(Named Entity Recognition)研究的重点之一。命名实体包括人名、地名、机构名、时间短语等,组织机构名是其中非常重要的一部分,其识别的难度也是所有命名实体中最大的。包括机构名在内的命名实体的识别是许多自然语言处理任务,如信息抽取、机器翻译、信息检索等的基础,具有十分重要的意义。统计方法是自然语言处理中最重要的方法之一。在统计学习理论的基础上发展起来支持向量机是一种新的通用学习方法。基于结构风险最小化原则的支持向量机在许多研究问题中,特别是样本集有限的情况下,表现出了优于其它机器学习方法的性能。目前,支持向量机已经应用于自然语言处理的许多领域,如文本分类,浅层句法分析,专名识别等,都取得了不错的效果。本文提出了一种支持向量机结合主动学习策略进行中文机构名识别的方法:用支持向量机对切分标注过语料中的中文机构名进行识别,并在样本选择和模型训练时,结合了主动学习的策略。我们在大规模的真实文本中对该方法进行了多组开放性测试实验,实验中我们比较了不同特征选择,以及不同的样本选择策略对结果的影响。实验的结果表明,基于支持向量机的方法取得了很好的结果:正确率,召回率和F值分别达到了81.68%,86.84%,84.18%。实验也表明主动学习的策略能有效地减少训练样本的数量,从而减少了人工标注成本。最终,我们在该方法的基础上实现了一个机构名识别的实验系统。
其他文献
本文从CSCD技术的网络化需求入手,分析Web Services概念体系在协同设计中的作用,将Web Services和CSCD技术应用于变压器结构设计,提出了一种基于Web Services的CSCD在变压器设计中的应用体系结构。在分析协同设计系统架构的基础上,对协同设计的关键技术,如协同感知方法、冲突消解算法等进行了研究,建立了协同设计中支持产品的全域信息模型;同时,对协同设计进行了过程建模。
P2P电子商务在现实生活中发挥了越来越重要的作用。基于P2P的电子商务较之C/S体系下的电子商务,在灵活性、可扩展性、系统健壮性及投入成本等方面都具很强的竞争优势。但在方
图书馆是人们获取知识和信息的主要来源,图书馆的主要宗旨就是全心全意为读者服务。随着信息技术和网络技术的飞速发展,给图书馆的服务带来了新的挑战。为了提高服务质量和工作
本文分析了B/S架构MIS系统的安全需求,研究了MIS页面文件和数据库系统的保护技术。使用信息摘要、数字签名等方法和外挂轮询技术对传统页面保护策略进行了改进,提高了对MIS页
泛化的EBMT(Example-based machine translation)是针对传统EBMT的一种改进方案,它利用翻译模板取代翻译实例,这样既减小了实例库的规模,同时也在一定程度上提高了模板匹配的
随着互联网的发展,网络应用成为了计算机系统应用的研究热点。同时,以P2P为代表的网络结构将网络应用推向新的高潮。本文的主要目的是研究并开发了一套基于结构化P2P网络的多
网基础理论的研究和发展如今已相当的成熟。目前,网在实际应用领域的研究已成为网研究的侧重点了。但传统网理论由于无法处理非确定信息,从而造成网在建模、处理和分析不确定
大规模的双语命名实体库可以有效的改进机器翻译、跨语言检索等系统的性能。因而前人提出了很多抓取双语命名实体的方法。早期的方法主要是从平行语料中进行抽取,这类方法存
随着传统应用系统集成技术弊端的不断暴露,企业迫切需要一套更经济、更有效的将各种应用系统集成起来的方法。本文主要针对传统技术的种种不足,利用Web Services的高松散藕合
图论是研究由线连接的点集的理论。图论是组合数学的一个重要分支,同时也是离散数学的一个重要组成部分。随着计算机科学与数学的发展,图论已经成为人们研究自然科学以及社会科