【摘 要】
:
命名实体识别作为自然语言处理技术中许多研究的基础任务之一,其运用范围十分广泛。命名实体识别的主要目的是识别指定语料中具有特定意义的时间、地点名、人名、组织机构名等实体并对其进行分类。传统的命名实体识别方法主要使用规则和词表,需要人工设计识别规则,跨领域通用性较差。使用机器学习的方法进行命名实体识别则具有更高的灵活性和通用性,不受专业知识的约束,但识别效果依赖于人为设计的大量特征的质量高低。基于深度
论文部分内容阅读
命名实体识别作为自然语言处理技术中许多研究的基础任务之一,其运用范围十分广泛。命名实体识别的主要目的是识别指定语料中具有特定意义的时间、地点名、人名、组织机构名等实体并对其进行分类。传统的命名实体识别方法主要使用规则和词表,需要人工设计识别规则,跨领域通用性较差。使用机器学习的方法进行命名实体识别则具有更高的灵活性和通用性,不受专业知识的约束,但识别效果依赖于人为设计的大量特征的质量高低。基于深度学习的命名实体识别方法无需人为设计大量特征,可以自学习样本的特征,具有较高的通用性和可移植性,因此成为当前命名实体识别的主要研究方向。本文首先分析和总结了现有的命名实体识别方法,介绍了国内外命名实体识别的研究成果。通过分析总结发现,现有的命名实体识别方法大部分将输入文本理解为输入特征向量的一维集合,忽略了句子中各组成成分的依赖关系。句子中各组成成分通过非对称的依存关系相连,句法依存关系是分析句子结构和语义的重要基础。因此本文引入依存句法分析,使用依存句法图表示句法结构。卷积神经网络可以提取多尺度的局部空间特征,然后将其组合成具有高表达能力的向量表示。但由于图结构数据中各节点的邻接节点个数不同,导致卷积神经网络的卷积核与池化操作难以定义。因此本文引入图卷积神经网络(GCN)处理依存句法图。本文引入依存句法分析,结合图卷积神经网络与双向长短期记忆网络(Bi-LSTM)构建命名实体识别模型。为在训练中保留节点自身特征,在依存句法图中添加自循环边,为使依赖信息可以双向传递,添加反向句法依赖边。为减少模型参数,忽略依存句法图中边的标签信息,根据依赖传递方向将边分为原始边、反向边与自循环边。使用词向量和词性向量构建输入特征向量,首先使用双向长短期记忆神经网络获取上下文隐含信息,然后使用图卷积神经网络分别处理原始边依存句法图、反向依赖边依存句法图和自循环依存边依存句法图,获取邻接节点的隐含特征信息,输出层使用条件随机场计算标签概率。通过多组对比实验证明,引入句法结构信息可以有效提高命名实体识别的效果,当使用两层图卷积神经网络时,命名实体识别效果最好。
其他文献
随着网购环境的日益完善、移动支付的广泛推行以及网民数量的日益增加,网购成为了人们生活中不可缺少的一部分,与此同时,互联网上关于商品的在线评论的数量也呈爆发式增长并反过来对商品的后续销量产生影响,在线评论已经成为了消费者在线搜寻可能的目标商品并下定决心购买该商品时的关键参考依据之一。因此分析在线评论数据对商品销量的预测研究具有重要意义,成为相关研究的重要方向之一。关于基于评论的销量预测研究,多是基于
在线旅游企业通过深度加工用户数据可以以更低成本为用户提供更精准的位置服务,用户也可高效便捷地获取高质量位置服务来辅助旅行决策。但若企业过度收集用户数据和滥用用户数据则会伤害用户利益,触发用户的自我保护行为,并最终制约在线旅游行业的持续稳定发展。因此,探究触发用户隐私保护行为的机制对于平衡用户隐私和个性化服务之间的关系具有积极意义。本文聚焦于在线旅游用户位置隐私保护行为,探究了触发用户位置隐私保护的
随着大数据时代背景下网络数字资源的爆发式增长,数字图书馆机遇与挑战并存,数字图书馆的学术资源不应局限于图书和期刊论文等传统的文本资源,互联网上的文本数据同样被认为极具学术价值的资源。因此,数字图书馆在保持原有的传统馆藏资源的优势上,需要将新闻网页等被认为同样具有学术研究价值的网络文本资源纳入其中。但是,一方面,互联网上的新闻网页等文本资源增长迅猛且更新频繁,如果将其纳入到数字图书馆中,不能使用传统
随着我国居民消费水平的提升和移动互联网技术的升级,知识付费行业取得了较好的发展,移动知识付费平台的数量不断增多。移动知识付费平台一方面可以激励更优质内容的产生,另一方面可以帮助用户更高效的筛选信息。随着消费水平的提高和消费观念的变化,人们对于精神文化的需求日益增加,为知识付费的意愿也会有所增强,因而知识付费行业拥有着巨大的市场潜力。因此,探究影响用户对知识付费类APP满意度的因素具有一定的实践意义
随着知识图谱技术的不断发展,其应用迅速向各个垂直领域渗透。在金融领域中,企业知识图谱构建受到了工业界与学术界的广泛关注。使用知识图谱技术从来源广泛、类型复杂的企业数据中获取关联信息,并为用户提供面向金融的分析服务是当前的研究热点。企业知识图谱将来自不同数据源的企业信息进行统一的表示与融合,最终形成一个大的企业关联图谱。在企业关联图谱上,利用已有的图查询与挖掘技术能够构建丰富的知识发现应用。本文从知
伴随中国经济的快速发展和人民生活水平的显著提高,对健康和更高质量生活的追求促使医疗服务需求快速增长。而传统医疗因资源紧张、地域分布不均衡、分级诊疗不完善等问题,无法应对这种快速增长的医疗服务需求。互联网技术的迅速发展以及Web 2.0技术的出现,以在线医疗社区为代表的新型“互联网+”医疗模式在打破传统医疗模式的时间和空间限制、高效整合利用医疗资源、提高医疗服务水平上发挥着重要的作用。它摒弃了传统的
近年来,我国突发事件频频发生。在突发事件中,网民通过微博发表自己的观点和见解,产生了大量具有情感的信息。其中,负面情感的蔓延极易引起民众的过激行为,若不加以正确引导,任其发展,极有可能造成严重的网络舆情危机,负面情感的预测显得尤其重要。因此,本文以微博负面情感数据为研究对象,结合情感分析和时间序列建模方法,在博文情感值计算的基础上筛选出负面情感,并建立ARIMA-LSTM混合模型进行预测。主要研究
互联网推动了信息全连接生态的形成进程。信息的数量与种类飞速增长,信息交互形式趋于多样化,信息获取与分发成本骤然降低,人与人之间的连接也在持续稳定的信息交互中不断加强与扩张。承载着用户客观观点与主观情感的数据成为互联网时代的新型资产。挖掘数据背后的模式是数据持有者及其他相关部门或机构的工作重点所在,且高效精准的数据挖掘离不开有效的方法和理论支持。在公共安全领域中,公众在线数据及设备监测物理数据等是开
网约车用户的持续使用是维持该行业乃至共享经济业态繁荣发展的关键所在。然而网约车行业的产品伤害危机事件频繁发生,引发用户对网约车运营和监管的极度不满。本研究聚焦于产品伤害危机情境下网约车用户的持续使用意愿,从危机生命周期的视角出发,探究危机不同阶段下用户持续使用意愿影响因素的差异。通过半结构访谈法获得大量文本资料,运用扎根分析法对资料进行三段编码,得出扎根模型。在分析扎根模型的基础上,整合信息系统持
我国有56个民族,其中少数民族的人口数量约占8%。各少数民族拥有独特的民族特点与文化背景,是中华文明的重要组成部分。虽然从人口比例而言,少数民族读者在我国总人口中所占比例很小,但从少数民族读者总量而言,已经超过了1亿,数量非常可观。公共图书馆作为重要的社会公共文化机构,在少数民族文化的保护与传承中扮演着极其重要的角色。但是,从少数民族自治地区公共图书馆的工作实践来看,少数民族特色服务已难以满足越发