基于循环神经网络的中文人名识别的研究

来源 :大连理工大学 | 被引量 : 0次 | 上传用户:tomily98
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
中文人名识别任务是中文信息处理领域中的基础任务,其性能的好坏将直接影响到其他任务的性能。中文人名的随意性使其在未登录词中占有较大的比重,解决未登录词识别问题首先要解决人名识别问题。因此,解决中文人名识别问题具有重要的意义。现有基于统计的中文人名识别方法存在特征选取复杂和人工干预等问题,针对这些问题,本文提出了一种基于循环神经网络(Recurrent Neural Networks)的中文人名识别方法,该方法仅采用词向量作为模型的特征且无需人工干预,有效降低了特征选取的复杂性和人工干预对实验造成的影响。此外,词向量可以通过大量未标注的中文数据训练获得,然后将蕴含丰富语义信息的词向量作为循环神经网络模型的输入,可以使模型学习到更多的信息,提升模型的性能。本文将模型分为两个阶段:模型构建阶段和后处理阶段。在模型构建阶段,我们将重点放在词向量的优化策略上。针对词向量的优化问题,本文提出了三种策略:(1)将word2vec训练得到的词向量替换循环神经网络模型的随机初始词向量(2)对词向量训练语料进行数词泛化操作(3)改进word2vec模型,将特征信息融入词向量实验结果表明,通过词向量的优化操作,中文人名识别模型的F值提高了2.23%。在后处理阶段,通过上下文规则对候选人名进行过滤;采用基于篇章的全局扩散操作召回在某一位置由于信息不足识别不出而在其他位置能够被识别的人名;使用基于篇章的局部扩散操作识别篇章信息中有名无姓或者有姓无名的人名。实验结果表明,通过规则过滤和扩散操作,中文人名识别模型的F值提高了4.74%。
其他文献
随着互联网的不断发展和日益普及,互联网上的信息也是增长快速,全世界的网页数量也高达40亿左右,在我国的数量也超过了3亿左右,与此同时搜索引擎的作用越来越显的极为重要,但
新闻视频中的字幕文字通常含有新闻人物人名,新闻事件主题等很重要的信息。新闻视频字幕文字作为一种高级语义信息,对新闻视频内容的理解、索引具有重要作用。本文研究的是新
随着时代的飞速发展,生活节奏的不断加速,生活的压力也随之加大,对当代人们的心理健康造成了严重影响。军人由于军事生活高度统一,组织纪律严格,并随时可能执行应急军事任务,
随着网络的普及,基于分布式环境的应用系统已成为当前应用软件的中坚力量。但在分布式环境下,由于系统的运行效率依赖于各服务器的配置和网络状况,即使在目前计算机硬件性能
随着软件服务领域的不断拓展、软件研发技术的不断进步,面向对象技术已经成为了软件分析与设计的主导技术。然而与之相应的软件测试技术的发展却是滞后的。因此,本文将围绕面
长期以来,型号软件的研制生产效率过低、周期过长、成本过高、风险难以控制,已成为制约武器装备更新换代速度、降低武器装备生产效率的关键因素。采用代码自动生成的方法可以
随着网络的蓬勃发展,计算机软件得到了长足的发展,它在社会的各个领域得到了广泛的利用。同时,这些软件程序存在着一些安全漏洞。缓冲区溢出漏洞就是最明显的一个。本文基于G
随着网络技术的迅速发展及网络规模的不断扩大,网络在人们生产、生活中的应用越来越广泛,网络的安全性和稳定性越来越受到人们的重视。网络管理系统是维护和保证网络安全、稳
Web服务是基于网络的、分布式的模块化组件,它定义了应用程序如何在Web上实现互操作,已成为一种具有发展潜力的分布式网络应用集成技术。Web服务发现是Web服务应用中的关键技
VANET (Vehicular Ad-hoc Network)作为一种运行在特殊的高速移动网络环境中提供丰富移动应用程序与服务的分布式自组织网络,相关的应用与发展的研究早已备受关注。在VANET中