【摘 要】
:
命名实体识别是自然语言处理的基础性任务之一,广泛应用于文本挖掘、语义分析、机器翻译等领域中。在数据日趋海量化和异构化的当今社会,对命名实体识别的研究已经成为了现阶
论文部分内容阅读
命名实体识别是自然语言处理的基础性任务之一,广泛应用于文本挖掘、语义分析、机器翻译等领域中。在数据日趋海量化和异构化的当今社会,对命名实体识别的研究已经成为了现阶段自然语言处理中的重点项目之一。中文命名实体识别的现有方法大多依赖于先验领域知识,对研究人员的语言学知识具有较高的要求,且识别效果不佳,难以满足大规模工程化应用的需求。随着近年来深度学习技术的日渐成熟,基于人工神经网络的中文命名实体识别技术的研究已经逐渐成为当前中文命名实体识别的主要研究方向。本文首先对传统的命名实体识别方法进行了分析和总结,并介绍了国外命名实体识别的基于人工神经网络的研究成果。随后本文在传统命名实体识别方法的基础上,融入词向量和前馈神经网络,建立了一种较为灵活的命名实体识别架构。通过对大规模未标记语料的内部表示的学习,使得系统减少甚至忽略工程化特征的影响,采用无监督的方法进行中文命名实体识别。并在无监督前馈神经网络模型的基础上,利用PCA降维的方法,从包含中文命名实体特征的多个目标词中提取出一系列的特征向量,再使用这些少量的先验知识来实现半监督的命名实体识别,从而进一步提升了模型的识别效果。实验表明,使用前馈神经网络能够极大地改善识别依赖于先验信息的问题,且识别速度快,但是识别效果仍有待提高。随后,本文在对循环神经网络和长短期记忆神经网络进行研究后,在前面叙述的前馈神经网络的基础上采用长短期记忆神经网络代替了原有的前馈神经网络,并通过优化词向量获得方式的方法优化输入向量。实验表明新模型的识别效果得到了进一步的提升,使之能在使用无监督学习方法时取得较为满意的结果,并使其能够在处理长句子时性能相比于前馈神经网络获得较大幅的提升。最后,本文根据上述几种模型设计了一款中文命名实体识别的简单原型系统,以便于更方便地对几种模型进行使用。
其他文献
为应对人口老龄化问题,基于我国当前的养老现状和互联网时代极速发展背景,在社区居家养老基础上发展科技养老成为新的方向。本文以L市养老信息服务中心为例,深入探究该信息养
<正>本文通过定义排班模板、角色、岗位属性和岗位技能等相关要素,结合各要素的约束条件建立数学模型,基于遗传算法(GA)设计自动排班算法,利用ASP.NET进行编程开发了一套排班
文章针对整本书阅读在我国语文教育界的理论研究和实践探索做了初步的探讨,并在新的课程改革背景下就整本书阅读教学的课程化进程进一步厘清了认知轮廓,期望为整本书阅读教学
企业的日常经营活动中,现金的合理持有与分配需要一定的机制去有效监督与制约,才会保证较高的现金管理效率,从而提升企业价值。近年来,我国现金持有水平普遍的高于其他发达国
基线比例忽略是指个体进行决策和判断时不能充分利用或者忽略基线比例而偏好新信息的现象。该现象普遍存在于日常行为与决策的许多领域,尤其显著表现在临床医疗领域,因此对这一
我国地大物博,矿产资源十分丰富,随着锌冶炼产量产能的增加,对于锌原料的需求量逐渐加大,锌精矿、锌矿石、铜锌混合矿石、铅锌混合矿石中金属的提炼对于冶炼企业的效益影响是
核电建设目前已发展了数十年,目前绝大多数核电厂安全运行记录良好,然而一旦核电厂发生事故其后果将相当严重。我国目前在核电应急通信领域主要以地面通信为主,一旦发生重特大事故叠加自然灾害,仅依靠地面线路是不够的。因此,建立一套核电应急通信系统十分必要,既可为地面线路故障恢复前提供应急保障,又可为国家核响应中心提供突发事故现场信息,提升核电通信领域的应急保障能力。本文主要研究核电应急通信系统的设计和实现,
本研究选择海浪河下游作为研究样地,设置10个采样点,并于2009年3月至2010年1月共进行6次采样,同时对相应的水环境理化因子进行检测。采用传统微生物分离方法等分析对该流域细
本文对国内外关于供热工程中比摩阻的研究进行了综述,分析了目前规划、设计阶段在比摩阻取值问题上存在的不足之处,通过对比摩阻影响因素的分析提出了综合比摩阻的概念,该概
随着互联网以及信息技术的飞速发展,人工智能领域越来越受到人们的重视,吸引了大批的研究人员和开发人员。机器翻译是人工智能领域研究的热点,具有重要的理论意义和极大的应用价值。本文研究旨在探究如何构建印度英语-汉语的双语语料库,如何在通用英语-汉语神经机器翻译模型基础上通过迁移学习训练印度英语-汉语神经机器翻译模型,如何把印度英语的语言特征与神经网络结合起来,如何设计并实现印度英语-汉语的神经机器翻译系