基于语篇的中文命名实体识别研究

来源 :厦门大学 | 被引量 : 0次 | 上传用户:quartz
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
命名实体识别是自然语言信息处理的一项基础工作。命名实体识别的研究,在自然语言信息处理的许多应用领域如信息抽取、自动分类、机器翻译、问答系统和信息检索等都具有重大的意义。国际上,很早就开始了命名实体识别技术的研究并取得了不错的成果。但是,由于中文本身的内在特点,使得命名实体识别问题成为中文信息处理中的一项艰巨的任务。为了解决基于句子中文命名实体识别研究的局限性,本文提出了一种基于语篇的中文命名实体识别算法,并从以下几个方面对基于语篇的中文命名实体识别问题进行了研究和探讨:首先,文本介绍了人名、地名和组织名三种主要的命名实体的相关语言学知识,并对命名实体识别的早期的规则方法和目前流行的机器学习方法进行了简要介绍。其次,提出了一个统计与规则相结合的中文命名实体识别算法。本文详细分析了中文命名实体的构成特点,提出了双层的CRFs模型进行机器学习方法,并采用规则库对CRFs标注结果进行校正,取得了不错的效果。再次,对语篇的基本概念和语篇理论进行了初步的学习和研究。在对语篇概念和基本理论有了一定的认识之后,重点对语篇的指代消解进行学习和研究。最后,提出了一种基于语篇的中文命名实体识别的算法,从整个语篇的角度对命名实体识别进行分析和研究。在系统架构过程中,本文采用了模块化的方法,分别有:句子级中文命名实体识别模块,指代消解模块,组织名缩略语识别模块、中文命名实体重现模块和评测模块等。实验结果表明,基于语篇的中文命名实体识别系统的识别效果相对于句子级的中文命名实体识别系统的识别效果有明显提高,在对2004年863中文命名实体评测语料的开放测试中,系统的识别的精确率、召回率和F-值分别是85.35%、80.62%和82.92%。
其他文献
目前基于面向服务的体系架构(SOA)的先进思想比较流行,这是一种以服务为基础元素建立企业级信息化平台的架构思想。在信息化建设中产生了大量为满足服务需要的系统,但其间却
就业是民生之本,高校毕业生就业,是实现经济持续健康发展、民生改善和稳定社会大局的重要保障.坚持积极稳健的就业政策,实现更高质量就业满足政、行、企、校、生多方面需求.
无线通信技术、微电子技术、传感器技术以及计算机技术的飞速发展与日益成熟,推动了低成本、低功耗并能进行短距离无线通信的无线传感器网络技术的发展。工业无线网络技术是
接入网技术与骨干网技术发展的巨大差异导致了制约互联网进一步发展的新瓶颈的产生。以太无源光网络(EPON-Ethernet Passive Optical Network)技术正是在这种形势下诞生的。
随着现代科技的发展,可以获取和利用的图像资源急剧增加。运用图像分析和理解技术快速检测和识别出图像中的目标,在军事、生产和生活等诸多领域都有迫切的需求,同时也是计算
事务处理技术作为保证信息一致性和可靠性的关键技术,对商用系统意义深刻。事务作为一个逻辑工作单元的操作集合,需要保证ACID特性,即(Atomicity原子性,Consistency一致性,Isolati
随着互联网的高速发展和各种数字技术的不断进步,信息数字化浪潮席卷全球,超文本类格式文档成为应用最为广泛的信息载体;另一方面,消费电子、计算机、通信一体化趋势日趋明显,
随着高等教育改革的不断深入和深化,教育体制的不断发展,我国高校的教学管理也面临着新的挑战。多所高校的合并,各个学校又分多层管理,各个部门所使用的数据库数据结构都不尽
跨语言信息检索(Cross Language Information Retrieval, CLIR)即可用一种提问语言检索出用另一种语言书写的信息的检索方法。跨语言信息检索的研究目的在于减少信息检索中语
耳声发射(Otoacoustic Emission,OAEs)是由内耳中外毛细胞产生,经听骨链、鼓膜传导,释放人外耳道的音频能量。它首次由英国人Kemp在1978年通过放人外耳道的耳机—话筒组合探