汉语嵌套命名实体识别方法研究

来源 :黑龙江大学 | 被引量 : 0次 | 上传用户:wsdadoudou
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着近几年互联网的飞速发展,网络中各种各样的电子文本信息急剧膨胀。如何迅速、有效地从这些海量的、非结构化的文本中获取我们所需要的信息和知识已经成为自然语言处理领域的一个研究热点。作为信息抽取的重要子任务,命名实体识别在许多自然语言处理应用领域起着十分重要的作用,其主要目的是识别文本或句子中表示人名、地名、机构名以及时间日期等信息的短语。本文引入实体语素概念,在机器学习框架融合实体内部结构特征和外部上下文信息研究人名、地名和机构名等命名实体识别方法,重点解决地名和机构名当中存在的大量复杂的、含有嵌套结构的命名实体识别问题。具体地,本文从以下三个方面展开研究:首先,采用基于机器学习方法构建汉语命名实体的双层模型,并通过实验对最大熵和条件随机场组合成的四种双层模型进行了对比测试。结果表明基于条件随机场的双层模型对嵌套命名实体的识别效果最好。在此基础上,对双层模型的错误识别结果进行了分析,进而提出一种基于互信息的后处理方法,对复杂的命名实体进行纠错处理,很大程度上解决了嵌套命名实体边界识别错误问题。其次,将非嵌套的简单实体和嵌套的复杂实体分开分别处理,同时以字和词相结合的方式,深入剖析多层嵌套命名实体的结构特点,并以此为基础改进基于条件随机场的双层模型结构,以进一步提高嵌套命名实体识别效果。最后,通过语料库考察了汉语嵌套命名实体与实体语素之间的关系,并以命名实体语素为基础,通过Logistic回归模型中Logistic变换方法筛选出的嵌套命名实体内部的多级前后缀语素特征,进而在条件随机场模型上融合内部结构特征和外部上下文信息,实现了一个基于实体语素的汉语嵌套命名实体识别系统。实验结果表明,命名实体语素的引入有利于提高嵌套命名实体识别的性能。
其他文献
无线传感器网络是一种在没有固定基础设施的环境下构建的由传感器节点临时组成的自组织无线网络,节点的能量供应、计算能力和通信能力等资源都非常有限,所以如何延长网络的生存
随着计算机网络和虚拟现实技术的不断发展和结合,虚拟现实技术得到广泛的应用,其成为当前热门课题。虚拟现实技术在三维企业导览系统中的研究和应用,为现实与虚拟世界架起一
机器学习是人工智能领域重要的议题之一,广泛的应用于视频、图像、生物信息处理、系统控制等领域。在传统的机器学习中,各类机器学习模型依据学习过程的不同被分为监督学习和非
随着遥感技术的发展,彩色遥感图像处理技术也有了极大的发展。从实际应用来说,有效地将彩色遥感图像中的自然或者人工目标物体与背景相分离,并将其识别成应用所能接受和理解的模
随着互联网技术和多媒体技术的迅猛发展,数字图像已经成为信息表达方式的主流,由之而生的数字图像信息安全问题成为人们关注的焦点。图像加密是是保护图像安全的一项核心技术,也
蛋白质折叠问题又称蛋白质结构预测(PSP),是生物学和计算机科学相结合的热点。通过理论计算使用计算机的计算能力来寻找蛋白质的最小能量预测蛋白质结构,对于生物信息科学有
互联网的迅速发展使得网络舆论正以其独特的方式和不容任何人质疑的力量发挥着自己的巨大作用。网络舆论已成为当前社会关系学研究的一个热点领域。目前,对网络舆论的研究仍然
无线传感器网络主要任务是对监控区域的信息进行采集,以达到远程监控的目的,在军事和民用领域蕴含着广泛的应用前景。由于传感器节点结构简单、能量有限,且通常部署在危险甚至敌
随着Internet中多媒体实时业务的广泛应用,人们对QoS(Quality ofService)组播的需求日益增长,然而研究表明,QoS组播路由带有多个QoS约束参数,它是一个NP(Non-deterministic Polyn