基于深度学习的中文命名实体识别研究

来源 :贵州大学 | 被引量 : 0次 | 上传用户:hellangel112
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来我国互联网产业得到长足发展,在这个进程中产生了海量的中文文本数据,这些数据资源中蕴藏着丰富的潜在信息。命名实体作为文本中重要的语义知识,它影响着自然语言处理领域诸多上层任务如机器翻译、问答系统、情感分析和搜索引擎等的效果,因此对其进行准确地识别和分类逐渐成为一项关键的基础性研究任务。中文命名实体识别能够抽取出中文文本中的实体信息,为中文自然语言处理领域的相关研究奠定基础,但是,目前中文命名实体识别研究面临着中文实体界限难划分、词语歧义性和标注数据集资源有限等难点。传统的命名实体识别研究方法主要是基于词典与规则和基于统计学模型,这两种方法都需要人为参与制定规则或构建特征,非常依赖领域的语言学知识。基于深度学习的研究方法不需要人为干预,模型可以自动提取句子特征,尤其是基于神经网络的分布式表示法的出现为命名实体识别研究带来了强劲的发展动力。本文针对当前中文命名实体识别面临的难点与挑战,深入研究了深度学习在该领域的相关工作,并做了总结与探索创新。本文主要研究内容如下:一、针对基于字级别的中文命名实体识别方法无法充分利用句子词语信息的问题,本文设计了一种融合词语信息的中文命名实体识别模型。该模型通过引入外部词典,在字级别表示中融入句子潜在词语信息,避免了分词错误传播的问题。另外,利用Transformer网络对字和词语的向量表示以及位置关系信息进行编码分析,并通过条件随机场算法计算得到最优标签序列。在中文命名实体语料CLUENER2020上进行了实验,精确率达到82.46%,召回率达到83.14%,F1值达到82.80%,表明了本文融合词语信息的方法可以提升中文命名实体识别效果。二、基于对抗生成网络和多任务学习的思想,本文研究了对抗式多任务学习对于提升中文命名实体识别效果的作用。通过采用对抗式训练中文分词任务和中文命名实体识别任务,在将中文分词任务的词语边界参数信息分享给命名实体识别任务的同时避免了任务私有特征噪声对共享特征空间的影响。在实验部分,本文采用了PKU和MSR两种中文分词数据集,实验结果与基准模型相比F1值有较大提升,验证了本文模型的有效性,表明对抗式训练这两种任务有助于提升中文命名实体识别效果。另外,还验证了注意力机制在处理中文文本时具有很强地捕获句中远距离依赖关系的能力。
其他文献
剪力墙一般用在框架结构、框架剪力墙结构以及剪力墙结构中,作为抵抗水平力的主要构件,在结构体系中起着重要的作用。为了改善普通剪力墙在轴压比控制下截面面积过大以及边缘构件强度不足的情况,将区域约束混凝土结构的理论应用于剪力墙中,形成抗震性能良好的区域约束混凝土剪力墙(RCCW)。通过对3个普通剪力墙试件和3个区域约束混凝土剪力墙试件在低周反复荷载试验,并采用ABAQUS有限元分析,研究了不同轴压比下约
小微企业是国民经济的重要组成部分,在扩大就业、助力经济增长、维护社会和谐稳定等方面起到了十分重要的作用,对经济转型发展具有非常重要的战略意义。这次新冠肺炎疫情进一步显露了小微企业在经济发展中的重要性和脆弱性。融资支持是小微企业健康发展必不可少的一环,做好小微企业金融服务,是稳增长、调结构、稳就业、惠民生的重要举措,是监管部门和银行业服务实体经济、服务人民群众根本利益的重要体现。对于银行来说如何提高
遥感图像是按一定比例真实记录地面物体的类别属性和分布特征的图像,能够表达丰富的地表信息。对遥感图像的解译如今已被广泛应用于土地测绘、城市扩张、环境检测、城市规划建设、自然灾害应急管理等诸多领域。特别地,在遥感图像中对建筑物进行识别是遥感信息获取的关键环节和研究热点。本文提出基于多任务学习的深度神经网络,通过语义分割与实例分割探索研究遥感图像建筑物识别的方法。具体工作如下:1.针对传统的基于语义分割
为有效化解信访积案,提升基层信访工作质效,大同市云州区纪委监委强化为民服务意识,统筹区、乡、村三级联动,变被动接访为干部主动下访,因案施策、因人而异,发扬钉钉子精神、敢于啃硬骨头,扎实推进信访积案化解工作有序开展。区纪委监委积极探索矛盾纠纷多元化解机制,成立由班子成员任组长的包案工作组,严格按照"一件一专班、一人一对策"要求,
期刊
混凝土折板式拟球面网壳是通过面切割球壳再网格化而成,可以看作是由密肋平板在脊梁处相交构成的新型结构。对于这种结构,当前的研究主要进行了静、动力分析和弹性稳定分析,由于构件截面尺寸较小,加之混凝土的材料非线性性能影响较显著,有可能使几何和材料非线性、甚至两类非线性的结合成为影响工程应用的控制因素,因此考虑非线性的影响,如何准确计算结构的稳定承载力是结构设计有必要考虑的问题。本文以有限元法为基本理论,
我国的城镇化进程不断加快,市政基础设施的需求量也逐步增加,与此同时对于工程的建造效率也提出较高的要求。土方工程是市政道路工程的重要环节,土方的施工效率和施工质量对市政道路整体质量具有显著影响。近年来,由于管理粗放化导致施工进度滞后、资源浪费、施工效率不高的现象,因此,如何改善市政道路土方工程施工的管理手段,是当前亟待解决的难题。为此,本文引入了基于无人机的市政道路土方工程的管控方式,通过无人机这一
空间钢网格结构广泛应用于体育馆、展览馆等公共建筑中,其杆件大多为圆钢管,若其结构的稳定性不足,会使结构出现失稳,导致结构出现破坏或倒塌,会造成巨大的经济损失、人员伤亡和社会影响。套管构件是一种稳定控制构件,其具有稳定控制、滞回性能良好等特点,但其多用于新建结构中。基于此,本文根据套管构件的特点提出了一种新型的加固方法,即装配式套管构件加固法,该方法可以在负载条件下进行加固,对原结构扰动小且通用性较
大跨度近方形平面混凝土蜂窝型空间网格盒式结构是一种新型的空间网格结构体系,这种蜂窝型楼盖兼备了之前正交正放与正交斜放空腹夹层板楼盖自重轻、造型美观等优点,此外,蜂窝型空腹夹层板在平面内三向传力,适用性强,摆脱了以往楼盖长宽比对空腹夹层板平面选型的限制。本文基于有限元软件ANSYS等对蜂窝型空间网格盒式结构的力学性能进行数值模拟及数据分析。本文以一个拟建的三层大跨度近方形体育馆为工程背景,运用有限元
在悠久的历史长河中留下的木结构建筑群具有较高文化价值,为了对木结构建筑群火灾防治提供理论支撑,本文以文献资料收集和现场调研为支撑,通过数学方法和数值模拟相结合的方式,研究木结构吊脚楼火灾轰燃与群火灾蔓延现象,最后利用案例进行实际验证并进行木结构建筑群火灾危险性分析。为木结构建筑群的火灾防控提供理论支撑,得到如下研究结果:首先将突变理论引入单个木结构建筑受限空间火灾轰燃及相邻木结构建筑火灾蔓延临界值
吊脚楼古建筑不仅承载着我国代代相传的建筑工艺,还是我国民族历史、文化、艺术的载体。在吊脚楼古建筑火灾过程中,木楼板、隔墙木板会首先出现烧穿而导致火灾在整栋建筑内部蔓延,木梁会由于表面炭化后失去承载力而导致建筑坍塌。因此本文将重点研究木梁、木楼板及隔墙木板火灾条件下的耐火性能。本文从木结构吊脚楼古建筑构件火灾试验出发,对木梁、木楼板及隔墙木板构件进行池火火源作用下燃烧特性及耐火性能试验展开研究,对隔