基于语言模型嵌入的中文命名实体识别

来源 :武汉大学 | 被引量 : 0次 | 上传用户:guoln
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
命名实体识别旨在识别非结构化文本中具有实际意义的实体,是很多自然语言处理任务的基础,在机器翻译、知识图谱构建、信息抽取、自动摘要、语义分析、自动问答等任务中都有广泛应用,命名实体识别的准确率直接影响上层应用的效果好坏。随着计算力的提升和数据量的增长,深度学习被广泛应用于信息处理之中。基于神经网络的命名实体识别方法能够自动完成实体的识别,可以有效避免手工特征抽取,且超过了传统的浅层机器学习模型,逐渐成为研究热点。在基于神经网络的中文命名实体识别方法中,字的向量化表示是重要一步,传统的词向量表示将字映射为单一向量,这种方法无法对字的多义性建模。针对这个问题,提出了基于BERT-BiGRU-CRF模型的中文命名实体识别方法。该方法通过BERT(Bidirectional Encoder Representations from Transformers)预训练语言模型增强字的语义表示,根据字的上下文动态生成语义向量,然后再将字向量序列输入BiGRU-CRF中进行训练。因为通过BERT层计算得到的字向量是上下文相关的,所以同样一个字在上下文不同时,在向量空间中的位置也不相同,一定程度上表征了字的多义性。训练时可以有两种训练方式,第一种训练方式是训练整个BERT-BiGRU-CRF模型,第二种训练方式是固定BERT层,只训练BiGRUCRF部分。实验表明,该模型的两种训练方法在MSRA语料上分别达到95.43%F1值和94.18%F1值,在2018年最新发布的简历数据集上可以达到95.43%和95.24%的F1值,均优于此前最优的Lattice-LSTM模型。第二种训练方式相对于第一种训练方式更省时间。针对BERT-BiGRU-CRF训练效率低的问题,提出了基于BERT-IDCNN-CRF的中文命名实体识别方法,通过BERT预训练语言模型表征多义性的同时,利用膨胀卷积容易并行的特性,加速训练过程。该模型在MSRA语料上可以达到94.41%F1值,在OntoNotes数据集上达到82.63%F1值,均优于此前的模型,并且相对于BERT-BiGRU-CRF方法,训练速度得到了提高。本文研究了语言模型嵌入在中文命名实体识别中的使用,通过将BERT预训练语言模型嵌入BiGRU模型和IDCNN模型,提高了中文命名实体识别的效果,有一定的使用价值且为其它序列标注类任务提供了思路。
其他文献
近些年来,伴随着智能手机数量的急剧增长,手机病毒的数量日益激增。手机用户在毫无感知的情况下遭受着各种各样的恶意攻击。Android智能手机在操作系统层面上提供了沙箱隔离
混沌信号的初始值及参数敏感性、类噪声性、可同步性以及宽频带性使得其在保密通信中得到了广泛应用,混沌掩码和混沌键控通信是混沌保密通信中最为典型的两种通信方法,传统的混沌掩码和混沌键控通信几乎都面临着非相干接收困难、噪声敏感以及系统传输效率低下等问题。本文利用Rossler超混沌系统以及解析解混合混沌系统分别给出了对应改进方法。本文的主要工作和创新如下:(1)噪声鲁棒的非相干混沌掩码通信系统针对传统混
轻质混凝土作为一种新型建筑材料,以其优良的物理力学特性广泛应用于各类建筑工程领域当中。耐久性作为衡量建筑结构使用寿命的重要指标,也是评价建筑材料是否符合使用需求的
目的:姜黄素已被用于预防和治疗许多器官和组织疾病,主要与其抗炎和抗氧化应激作用有关,姜黄素在溃疡性结肠炎(ulcerative colitis,UC)中的抗炎作用已经在多个动物实验和临床试验中得到了验证。UC患者行全结直肠切除、回肠贮袋肛管吻合术(ileal pouch anal anastomosis,IPAA)术后回肠贮袋炎的预防和治疗仍是困扰临床医师的主要难题。本文旨在初步探讨姜黄素对回肠贮
目的全球骨关节炎(osteoarthritis,OA)的患病率正在增加,这种疾病所造成的经济负担也将会持续增加,而膝关节是骨关节炎最常发生的部位。骨髓水肿(bone marrow lesions,BMLs)是一种骨关节炎晚期的严重的影像学表现。对于有此病变的患者,最好的治疗仍然是不清楚的。本研究的目的是比较在膝骨关节炎伴骨髓水肿的治疗中肌注降钙素与口服塞来昔布的短期临床疗效差异。方法本研究纳入了在
目的:研究同时经肝动脉灌注载阿霉素纳米金(doxorubicin-loaded gold nanoparticles,Dox-AuNPs)和利用碘化油行肝动脉栓塞术后,联合近红外光照射行光热消融治疗兔VX-2肝癌的
随着移动终端技术的不断发展,移动互联网用户的数量呈现飞速的增长,越来越多的用户通过移动终端,比如手机、平板电脑等设备,从互联网中获取自己需要的资源。这个过程会产生海
精馏过程具有连续操作和处理量大等特点,也是化工过程中的能耗大户,广泛的应用于两组分甚至多组分混合物的分离。在多组分物系的分离过程中,隔板精馏塔与常规精馏塔序列相比具有较好的节能效果。隔壁塔是一种内部热耦合塔,通过在普通精馏塔内部沿纵向安装一块或多块隔板后成为一种在热力学上与Petlyuk塔等效塔。隔壁塔在实现多组分混合物的分离时能消除中间组分在塔内部返混,减少能量消耗的同时又提高了热力学效率。但是
虚拟网络资源映射是网络虚拟化的核心问题之一,好的虚拟化资源映射算法可以快速对虚拟请求做出响应,提高整体的映射成功率,也能适应由于网络变化引起的映射变化,同时提高映射
随着中国经济的迅速发展,人们的消费选择越来越多样化,消费水平不断提高。然而,很多商家为了实现更大的商业利润从而降低产品和服务的质量,这直接损害了消费者权益。消费者在维权时可能遇到各种各样的困难,很多情况下消费者自认倒霉。而在软件开发领域,虽然单体架构具有学习成本低、开发上手快等优势,但是它已经很难满足互联网时代中快速迭代的需要。针对上述问题,本文围绕如何构建具有高性能、高可用和良好用户体验的用户投