基于词汇增强和深度学习的中文命名实体识别

来源 :广东工业大学 | 被引量 : 0次 | 上传用户:luoqiuqiu80
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
命名实体识别作为自然语言处理领域中的基本任务,可以从非结构化的文本数据中提取实体信息,在问答系统、信息抽取、阅读理解等其他自然语言处理领域任务起重要支撑作用。在文本数据爆炸式增加、GPU计算能力快速提升的背景下,深度学习被应用于解决命名实体识别问题并取得了良好的效果,成为解决该领域问题的主流方案。虽然命名实体识别技术取得了迅猛发展,但许多命名实体识别研究都是在英文领域,中文领域的命名实体识别依然存在着以下问题:(1)不同于英文中单词与单词之间用空格隔开,中文单词之间没有明显的边界,不同的词语划分可能会带来不同的含义,给命名实体识别带来一定的难度。(2)中文的字形结构复杂、文字特征不明显、信息粒度单一,不能类似英文单词那样简单的拆分成英文字母的组合。(3)在数据集实体类型较多的情况下,命名实体识别模型训练速度不快、预测精准度不高。因此,如何提高中文命名实体识别效果和加快模型训练成为了研究热点。考虑到以上问题,本文在利用深度学习解决中文命名实体识别任务的基础上,做了以下三个方面的工作:第一,构建了SH-BiLSTM-CRF中文命名实体识别模型。该模型以字作为模型的输入单位,避免了可能的分词错误带来的噪声,同时模型在输入层利用外部词典引入了词汇级别的特征信息,并使用Highway网络动态结合字级别和词汇级别两个维度的文本信息,丰富了输入文本的特征,该模型还利用条件随机场学习标签之间的约束来提升模型命名实体识别的性能。在三个数据集上的实验表明,该模型在中文命名实体识别上的性能较好,模型识别的准确率、召回率、F1值相比于基线模型均得到了一定的提高。第二,利用多任务学习的思想,将中文命名实体识别任务拆分成识别实体类型和识别实体位置两个子任务,并对SH-BiLSTM-CRF模型进行多任务化改造,降低了模型训练过程中条件随机场损失函数的计算量,最终降低了模型的训练时间。第三,在对SH-BiLSTM-CRF模型进行多任务化改造的基础上,构建了Muil-Ref-BiLSTM-CRF模型,该模型使用了一种改进的交叉熵损失函数,该损失函数通过对模型不同类型的识别错误添加不同的惩罚权重来降低模型准确率和召回率的比重,提高了模型识别的F1值。在两个实体类别较多的数据集的实验中,该模型相较于SH-BiLSTM-CRF模型的训练时间更短,模型识别的F1值更高。
其他文献
伴随着无线通信技术的迅猛发展,5G技术也迎来更加广泛的应用,越来越多的设备可以通过无线技术接入到互联网,基于5G技术的万物互联也变成了可能。然而,无线通信业务快速增长的同时也导致对频谱需求的急剧增加。发射功率作为重要的无线通信资源,一种有效的功率控制方法不仅能够提高频谱资源的利用率,还能提高用户的通信服务质量(Quality of Service,Qo S)。深度强化学习在近年得到了很大的发展,它
学位
当前,利用计算机视觉分类算法辅助医生诊断阿尔兹海默症已经成为较高效的诊断方式。对于阿尔兹海默症病灶分类任务而言,最具有挑战的是在大脑类别下精准区分患者MRI与正常衰老MRI之间的差异。一般地,在区分一些具有类间距离小类内距离大的特点的图像时,通过细粒度算法可以捕获到这些图像之间的细微差异,使得模型在某一大类下找到各个子类中具有区分性的区域。因此,有研究者发现将该算法运用在医学图像识别任务中可一定程
学位
随着我国社会人口老龄化日益加重,老龄群体对家庭医疗护理服务的需求不断提高。家庭护理路径规划与调度问题作为家庭医疗护理服务中一个具有挑战性的问题。然而,现有研究大多考虑老人的服务需求是否满足、服务是否及时、老人对服务是否满意等因素,却忽略了老人在选择护理人员上的预算和偏好习惯。因此,综合考虑上述因素,如何设计有效的护理资源调度方法,对降低家庭护理机构的运营成本以及提高行动不便的老人群体的医疗服务质量
学位
随着互联网技术以及社会经济等的高速发展,文档图像数量激增。计算机文档分析在纸质文档电子化、内容识别、内容检索等领域具有广泛的应用。近年来随着教育信息化的不断推进,智能教育成为国家的重要战略之一。新冠疫情下社会对智能在线教育的迫切需求,使得对教科书、习题册等文档的自动分析成为研究的热点。文档版面分析是指根据文档图像中不同区域的语义功能对文档进行区域分割并识别区域类别,是文档分析的关键步骤。其次,面向
学位
近年来,随着网络技术的提升及多媒体数据的爆炸性增长,这使得我们在现实生活中要面对的数据量越发庞大。同时,我们目前的需求不再满足于单一模态数据的相似性检索,而是多模态数据间的相互检索,即跨模态检索。而哈希技术的出现大大降低了检索时间与存储成本,因此在近年来也引起了广泛的关注与应用。经过多年的研究,跨模态哈希技术尽管有了不小的进展,但仍然存在着一些问题需要解决。例如大多数有监督哈希方法仅仅将标签信息转
学位
科学技术的进步,使得人们对美好生活的向往有了更深层次的追求,人们已不满足于只能完成单一既定任务的设备,而是更青睐于具有一定思维能力的智能机器人。SLAM是人工智能技术的重要基础,其赋予了机器人自我感知世界的能力,通过搭载特定的传感器,在未知的环境中实现对环境模型的构建,同时估计自己的运动。目前,SLAM技术已被广泛应用于智能机器人、无人机、自动驾驶以及AR/VR等领域。伴随着计算机视觉技术的飞速发
学位
颅内压高症是许多疾病的共有症群,采用植入式设备对患者的颅内压进行连续性监测,并在监测到颅内压异常时自主释放降压药物以维持患者颅内压动态平衡,这对颅内压高症的治疗具有重要意义。本文围绕植入式颅内压监测给药系统进行研究,设计并实现了具有颅内压监测、颅内压异常诊断和药物释放的功能植入式系统。(1)针对传统颅内压监测设备不灵活,患者依从性低的问题,设计了一种软植入的颅内压实时监测设备,在允许患者小范围活动
学位
纳米孔已经成为一类特殊的单分子分析工具,为检测和表征核酸和蛋白质等生物分子提供了巨大的潜力。作为生物纳米孔的替代品,固态纳米孔由于其在孔隙几何和孔径尺寸上的大范围可调性以及其优异的机械特性和电学特性而呈现出显著的多功能性。本文采用离子电流监测机制辅助的各项异性湿法刻蚀法进行锥形硅基固态纳米孔的制备,在满足低成本、批量化、可控性制备需求的同时,将制备工艺节点推进至亚5nm。围绕上述主题,本文主要研究
学位
随着互联网信息科技的发展,人们在日常生活需要处理各式各样的信息,信息过载成为人们快速获取需要的信息内容的一个重大难题。推荐系统的出现无论是对于业务需要的高效工作,还是日常生活的品质体验,都帮助人们大大减轻了筛选信息的工作,带来巨大的帮助和收益。推荐系统的实现方法是根据学习用户或项目本身的属性信息,以及用户与项目的历史交互信息来挖掘用户可能感兴趣的项目。但传统的推荐算法只关注于用户和项目的直接交互数
学位
社交媒体中存在着大量的用户情感信息,企业决策者们不仅希望了解用户情感,还希望了解相应的原因,以帮助他们从用户层面思考和优化产品。在这样的需求下,情感原因检测成为自然语言处理中具有重要价值和应用前景的任务之一,并逐渐发展为情感原因对提取任务(ECPE)。传统的二阶段ECPE模型存在着模型错误传递无法修正的问题,尽管后来的端到端模型解决了这一问题,但仍存在着文档事件特征利用不充分、混淆因子夹杂的问题。
学位