基于最大熵模型的中文组织机构名识别方法研究

来源 :山西大学 | 被引量 : 0次 | 上传用户:eastphoto
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
命名实体的识别一直是自然语言处理领域的研究焦点之一,对信息抽取、问答系统、机器翻译等方面的研究有着十分重要的价值。虽然命名实体识别技术已经相当成熟,但是从评测的结果来看,中文命名实体的识别还远远不能满足应用的需求,因为这里存在着技术、资源、应用需求有机结合的问题。 中文组织机构名的识别是命名实体识别的一个子问题,又是其中一个难点问题。目前,国内对中文组织机构名识别的研究或者是仅局限于某一具体领域,如:学校、银行等机构名的识别;或者是所用方法中人工工作量相当大,如:需要人工提取许多规则。 本文基于最大熵模型,探索性地构建了一个中文组织机构名识别的系统,取得了较好的效果。本文主要研究了以下几个方面的问题: 第一、特征抽取及选择。在分析真实语料的基础上,本文提取出了适合中文组织机构名的特征集,并利用特征选择算法提取出有效特征。 第二、在特征集的基础上构建了中文组织机构名识别的最大熵模型。 第三、系统构建。本文基于最大熵模型构建了一个中文组织机构名识别系统。该系统主要由模型训练和文本标注两部分构成。首先根据己选取的特征构建最大熵模型,并且在一定规模的语料基础上进行模型训练。其次,按照一定的解码算法进行文本标注。实验结果表明,该系统取得了较好的效果。 本文深入研究了中文组织机构名的内部和外部特征,充分利用已有信息,实现了组织机构名的识别,效果较好。今后将在进一步扩大资源,改进数据结构的基础上进行更深入的研究。
其他文献
随着以电子期刊和在线文档形式存在的科技文献的不断增加,对科研教学人员来讲,如何充分利用现有的网络信息资源,从庞杂的电子文档中及时、准确地获知与自己研究领域相关的最新科
随着网络技术的发展和互联网的广泛应用,人们对网络的研究也在逐步的深入。Internet拓扑图为大范围开发、利用Internet提供了一个有力的工具。网络研究者可以利用拓扑生成器
随着WWW的迅猛发展,对网页进行分类成为处理和组织大量文档数据的关键技术。由于最大熵模型可以综合观察到的各种相关或不相关的概率知识,对许多问题的处理都可以达到较好
随着Web爆发式地增长,推荐系统已经广泛的被用户所接受。大量的互联网用户增加到形形色色的电子商务网站中去,这就使得推荐系统得到了得天独厚的发展空间。随着系统规模的不
随着计算机网络的发展,恶意程序和病毒的数量不断攀升,当恶意程序穿透防火墙到达主机后,恶意程序会对用户主机的资源造成破坏。传统的防火墙和入侵检测技术在恶意程序到达主
随着计算机科学技术的发展与普及,特别是计算机在国民经济各重要部门的广泛应用,计算机安全已成为当前信息社会非常关注的突出问题。而数据库系统作为计算机信息系统的核心部件
Peer-to-peer(P2P)作为以文件共享为初始目的的应用,允许任意终端用户对等体(Peer)间通过Internet完成文件交换。在P2P应用仅有的短短几年发展时间里,它已成为了占用Internet流
近年来,随着网络技术的发展,P2P网络迅速普及开来。不同于客户机/服务器(C/S)结构,P2P并不严格的区分服务提供者和消费者,即参与的节点(Peer)都是平等的一种自组织、没有中央职权
受益于网络技术和移动通信技术的发展,人们开始使用越来越多的而且是各种各样的无线或者移动设备进行通信,处理和存储各种个人数据,像电话号码、个人记事本、会议信息等。用户将
监测功能是网格系统的基本组成部分,本论文认为通过SOA可以构建与具体网格系统无关的监测系统,同时现有的网格监测系统存在不支持测试内容的动态增加和更新、缺乏统一的监测结