【摘 要】
:
命名实体识别(Named Entity Recognition,NER)指的是在文本中识别并标注实体分类的过程,在知识图谱、自动问答系统和机器翻译等领域都有着广泛应用。命名实体识别任务面临着许多困难,例如分词界限不清、句型复杂、词语具有歧义性等,一直以来都是自然语言处理领域的研究热点。针对中文领域命名实体识别模型存在关联中文词序列依赖效果不佳且训练时间长等问题,本文提出一种BERT-IDCNN-C
论文部分内容阅读
命名实体识别(Named Entity Recognition,NER)指的是在文本中识别并标注实体分类的过程,在知识图谱、自动问答系统和机器翻译等领域都有着广泛应用。命名实体识别任务面临着许多困难,例如分词界限不清、句型复杂、词语具有歧义性等,一直以来都是自然语言处理领域的研究热点。针对中文领域命名实体识别模型存在关联中文词序列依赖效果不佳且训练时间长等问题,本文提出一种BERT-IDCNN-CRF模型。相比于传统的神经网络模型,该模型的优点在于:BERT预训练层能够动态抽取语句特点,更加准确地捕获语义信息;IDCNN层可以尽可能多地扩充容纳输入数据并加速GPU并行运算;CRF层输出最优序列分类概率。首先,为了更好地理解背景知识,介绍了命名实体识别相关的技术,包括词向量模型、混淆矩阵等。其次,通过对Bi-LSTM-CRF模型的训练过程和原理进行分析,主要包括网络模型优化、超参数调整等策略,以便更好地设计模型。在此基础上,最后设计了BERT-IDCNN-CRF模型,以期解决关联中文词序列依赖效果不佳、训练时间长等问题。本文通过实验证明了BERT-IDCNN-DRF模型的有效性。实验数据集来源于1998年1月份《人民日报》语料,约两万条数据。为了防止数据量过大,以便更好地分配计算资源,采用批处理的方式将数据送入模型之中。同时针对样本数据各个命名实体数量不均衡的问题,采用随机过采样和欠采样相结合的解决方式。通过对比试验,该模型相比传统的Bi-LSTM-CRF神经网络F1值提升了3.65%。
其他文献
随着我国经济飞速发展,局部地区电网功率不平衡的问题愈加严重。机组并网线路降压运行是指将高一级电压等级的发电机组并网线路降压接入低一级电压等级电网的运行方式,这是一种缓解高负荷密度地区电网输变电容量与负荷发展不平衡现象有效且经济的手段,此外,实施降压运行也可延缓或节约相关输变电容量的投资,创造良好的经济效益。但另一方面,当降压运行时,发电机组在脱离原高压侧层面电网时会减小其系统侧短路阻抗,增大拟接入
随着物联网技术以及人工智能技术的不断发展,多样化的移动应用也在不断兴起,人们对延迟的敏感性和对计算能力的要求也日益增加。受限于有限的计算能力和电池容量,移动设备通常难以满足用户低时延和低能耗的要求。移动边缘计算已经被公认为应对这一挑战的最有前途的技术之一。移动边缘计算具有帮助用户节约能量、提供低延迟服务和保障移动应用数据安全的优势。与此同时,无人机部署更加灵活和迅速,这使得基于无人机的移动边缘计算
互联网搜索是当今时代网民获取信息的主要途径,搜索引擎竞价排名是随着搜索引擎技术的发展产生的一种互联网营销模式,目前也是搜索引擎服务商最重要的商业运营模式和盈利来源。搜索引擎竞价排名在给搜索引擎服务商和竞价企业带来利益的同时,另一方面也给互联网市场带来很多负面影响,不规范的医疗竞价排名广告、欺骗点击搜索网页、不公平的商业竞争、关键词商标侵权等一系列问题引起的法律纠纷层出不穷,而这些最终都会侵害消费者
科技进步是驱动经济增长的主要动力,但科技成果的正外部性决定了其公共产品的特性,并导致私人部门的投资不足。因此,为充分发挥技术进步对地区经济增长的驱动作用,地方政府不
标点符号是汉语书面语的一个有机组成部分,在对外汉语的教学中应当作为一个不容忽视的内容。本文以俄罗斯留学生为研究对象,通过语料分析得到俄罗斯留学生使用汉语标点符号的整体特点和产生的偏误类型(对语料库中已标记的偏误进行归类),再根据语料中出现的典型偏误设计调查问卷,以调查俄罗斯留学生汉语标点符号典型偏误的偏误程度及其产生原因,最后为标点符号的教学提供了一些参考。通过语料分析发现俄罗斯留学生使用标点符号
近年来我国房屋市政工程生产安全事故无论是事故起数还是死亡人数都呈上升趋势,建筑行业的安全生产形势依旧严峻,建筑施工安全管理的基础薄弱现状依旧没有根本改变。而高处坠落事故处于建筑施工事故发生类型的首位,占比超50%以上,对其致因进行全面分析,为预防该类事故提供参考依据,对提高我国建筑施工安全生产水平具有重要意义。本文基于系统安全理论确定了用系统安全的思想全面分析施工现场所涉及到的各层面因素,以及建筑
随着商业发展,尤其是服务业的发展,价值有了更丰富的内涵。价值不仅仅以有形的形式传递,也存在于无形的创造中。在强调服务和客户体验的今天,即便是传统的产品销售过程,也发
瓦斯爆炸是气体钻井、煤矿开采等能源生产安全问题的重要隐患。目前,对甲烷气体的检测方式有光干涉、催化燃烧和红外吸收式。催化燃烧相对于其他几种检测方式,具有精度高、价格低等优点。但是传统的检测方法由于催化燃烧气体传感器的催化元件受温度影响大,特别是在高浓度的被测气体环境中,催化剂在高温燃烧下容易失活,从而导致传感器损坏以及存在检测范围低,温度漂移大等问题。本文设计了一种脉冲式供电、多传感器信息融合和反
随着高中化学课程教学改革的全面开展,如何进行“素养为本”的化学课堂教学成为中学化学教师关注的重点,与此同时,初中化学课堂教学也要随之做出改变。教师教学表现是教师课堂教学的一个重要反映,通过对教师课堂教学表现评价的研究,可以了解目前初中化学教师课堂教学的现状,寻找提升教师教学能力的方向。本研究是在郑长龙教授课题组关于中学化学教师教学能力已有研究基础上的应用研究。应用的评价工具是课题组开发的《教师教学
经济高速发展时期,生态环境带给我们的问题不容小觑,需要从政策、法律和理论上系统思考和推进生态文明建设,党的十八大将生态文明纳入“五位一体”总体布局之中,党的十九大报告中提出了要加快生态文明体制改革,提出要建设美丽中国这样一个宏大的愿景。在推进生态文明建设的进程中,形成了习近平生态文明思想。着眼于更加宏大的视野和更加长远的未来,习近平生态文明思想之所以会上升成为国家级重要发展战略,一定是有着它自身的