中文命名实体识别与歧义消解研究

来源 :复旦大学 | 被引量 : 0次 | 上传用户:vovoyoo
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
命名实体识别(Named Entity Recognition, NER)属于自然语言处理(Natural Language Processing, NLP)的基础研究领域,是信息抽取、信息检索、机器翻译、组块分析、问答系统等多种自然语言处理技术的重要基础。因此,对命名实体识别的研究具有很大的实用意义。本文针对现代汉语文本的特点,主要研究以人名、地名和组织名的识别为核心内容的中文命名实体识别问题,我们以一种较新型的统计模型——条件随机场(Conditional Random Field, CRF)为基本框架,设计并实现了一个中文命名实体识别系统,并在此基础上基于潜在语义分析(Latent Semantic Analysis,LSA)实现了对命名实体的歧义消解。具体说来,本文的主要内容如下:本文首先分析了命名实体识别的难点,各类命名实体的特点,并对现有的一些命名实体识别方法和中文命名实体识别系统进行了简要介绍。然后,本文详细介绍了条件随机场的定义、数学模型、参数估计和模型训练方法等。进一步地,我们将条件随机场模型应用于中文命名实体识别任务,实现了一个基于条件随机场的中文命名实体识别系统,系统采用了加入规则优化的双层结构,并提出了适合于各类中文命名实体的特征模板,通过实验进行验证,确定了有效特征。接着,本文介绍了命名实体歧义消解领域的研究状况,提出了一个基于特征选择和潜在语义分析(LSA)的命名实体歧义消解算法NED-FS-LSA,并通过实验验证了用该算法建立一个有效实体库的可行性。最后,本文总结了所做的工作——提出了一种可能的从文本到实体库的完整解决方案,并对未来在此基础上可以进一步开展的研究进行了展望。
其他文献
为贯彻落实辽宁省国土资源厅提出的地质找矿突破的精神,东北煤田地质局一。三队通过对红阳煤田范围内赋煤构造的预测,发现了三矿外围、徐往子外围、徐往子深部3个新的赋煤构造
近几年来,随着国家信息化建设的突飞猛进,互联网已经成为许多家庭必不可少的通信渠道,电信运营商因此也从中得到了很大的收益。随着三网融合的逐步展开,广电行业的许多传统业
当今的我国,一方面:专利的总体利用率非常低;另外一方面,企业融资的瓶颈问题难以破解。如何积极发挥专利权应有的杠杆作用,让质押融资成为企业专利权价值实现的有效途径之一,是
目的 研究在临时性血液透析导管封管时使用不同浓度肝素的有效性及安全性.方法 在透析结束时使用1.25%、2.5%、5%肝素进行导管内封管,观察封管后出血、导管血栓,统计导管功能不
日前,《国土资源信息化“十二五”规划》正式印发。《规划》提出,“十二五”期问努力构建覆盖伞同的集数字化、网络化、智能化为一体的“智慧国土”,全面实现网上办公、审批、监
LDV以其非接触式、高精度特性,广泛应用于冶金行业冷轧薄板各类生产线中,为提高产品质量提供了可靠的测量手段。本文介绍LDV的测速基本原理,并结合其在高精度六辊铝带轧机上
我国土地整治事业的第二个五年规划——《全国土地整治规划(2011-2015年)》日前发布。未来五年土地整治将迈出怎样的步伐,由此决定。这一轮规划从哪里来,到哪里去,其基本逻辑和
腰痛是临床极为常见的一种不适症状,影响患者的生活质量。在各种因素导致的腰痛中,以椎间盘源性最为显著。由于椎间盘源性疼痛的机制尚不清楚,其临床表现不典型,因此其诊断和