【摘 要】
:
中文实体识别从中文文本数据中抽取出关键信息实体,其为后续关系抽取、图谱构建、智能问答等自然语言处理任务提供数据基础。目前中文实体识别存在训练语料库匮乏、缺少实体边界、实体结构复杂、实体存在嵌套等难点,导致识别准确率不高,需要进一步改进。针对中文实体识别标注成本高、缺少实体边界、语义挖掘困难等问题,提出基于语义增强和多特征融合的中文实体识别模型。模型采用基于字根字形特征增强的字符特征提取算法、基于语
论文部分内容阅读
中文实体识别从中文文本数据中抽取出关键信息实体,其为后续关系抽取、图谱构建、智能问答等自然语言处理任务提供数据基础。目前中文实体识别存在训练语料库匮乏、缺少实体边界、实体结构复杂、实体存在嵌套等难点,导致识别准确率不高,需要进一步改进。针对中文实体识别标注成本高、缺少实体边界、语义挖掘困难等问题,提出基于语义增强和多特征融合的中文实体识别模型。模型采用基于字根字形特征增强的字符特征提取算法、基于语义增强的词汇特征提取算法、基于预训练模型的深层语义特征提取算法,并利用门控机制将字根字形特征、词汇特征、预训练特征融入到中文实体识别模型中,充分利用不同特征增强上下文语义,提高识别准确率。同时在此基础上进一步优化,利用自适应损失函数平衡负样本来提高F1值,利用数据增强扩充训练集以提高鲁棒性。该模型对训练语料依赖小,计算速度快且可拓展性强,但不适用复杂嵌套实体。针对中文实体结构复杂,实体存在嵌套等问题,提出基于语义理解和全局指针网络的中文实体识别模型。引入指针网络标注方式,将实体识别任务转为语义理解问题,将类别描述信息利用注意力机制融入实体识别模型,利用指针网络预测实体位置和类别。针对常规指针网络带来的训练和预测不一致的问题,提出基于全局指针网络的模型性能优化算法,尽管模型计算复杂度大,但该模型适用于序列实体和嵌套实体。在四个中文基准实体识别数据集上进行多特征语义增强实体识别模型效果验证,实验表明,提出的多特征语义增强模型与现有模型相比,取得较好效果,F1值最高,F1值在四个数据集上分别提升了0.55%、6.1%、1.08%和4.97%。分别在嵌套和序列实体识别数据集上进行基于语义理解的实体识别模型效果验证实验,实验表明,提出的语义理解模型现有模型相比,在序列和嵌套实体识别数据集均取得最优效果,F1值在CMe EE数据集上提升了3.09%,F1值在Onto Notes4数据集上提升了0.8%。
其他文献
随着物联网的发展和各种智能应用的普及,越来越多的计算密集型和时延敏感型任务出现,边缘计算通过将资源部署在网络的边缘,具有高带宽、低延迟的特性,可以更好地满足此类任务的需求。然而,由于许多任务都与特定的服务相关联,考虑到边缘云的存储资源有限,需要设计合理且有效的服务缓存策略以最小化边缘计算的系统时延。此外,如何实现任务卸载与服务缓存的协同优化以利用有限的资源最大化用户的体验度,也是一个亟待解决的问题
随着云平台的兴起和开发运维一体化的快速发展,容器虚拟化环境成为HPC(High Performance Computing)应用的主流部署环境之一。容器镜像构建一般依赖于用领域特定语言编写的容器镜像定义文件。镜像定义文件通常包含多种复杂的指令,人工编写耗时且易出错。据统计,在Github中超过34%的镜像定义文件不能成功构建容器镜像,镜像构建成功率约为66%。而在HPC领域,由于需要更加丰富的领域
近年来,深度神经网络在图像识别、目标检测等计算机视觉任务中取得了突出表现。尽管如此,现有研究表明深度神经网络模型具有一定脆弱性,即在面对人眼难以察觉扰动的对抗样本时无法给出正确的预测输出。因此,研究对抗攻击过程有助于掌握对抗样本的特性,促进深度神经网络模型进行有针对性防御,从而为未来深度学习模型的安全防护提供指导。传统的对抗攻击方法通常基于梯度优化生成扰动,具有较大的时间复杂度,且生成的对抗样本图
<正> 疼痛一症,可见于临床各科及多种疾病。病因不一,治法各异,倘能结合选用治痛药对,往往可增强疗效。今略举数对,以示梗概。一、羌活、独活治风湿阻络:羌活气浓香烈,升散力强;独活气清而香,升中有降。二味组对,祛风除湿,尤善止痛,用治风寒湿邪侵袭所致的肢体关节疼痛,头痛身痛等症。然羌活主入太阳,兼入少阴,治痹痛以上半身者更宜;独活主入少阴,兼入太阳,治痹痛尤宜下半身者。故前人有“独活入足少阴,而治伏
<正> 咽喉疾患,是临床常见的病症之一,由于病因和发病证型不同,在祖国医学文献上都分别有所论述。我们在治疗咽喉疾病的过程中,习惯上常采用一些行之有效的简易疗法,并收到了较为理想的效果。这里,对这些简易疗法做一简单介绍,供同道们参考使用。咽喉肿痛,多是由于热邪上攻或外感风热之邪,侵于肺,影响于喉所致。由于病邪人侵的程度不同,所以在治疗上对咽喉肿痛初起,常用清散之法,对于热毒较甚,疼痛严重者,用清热解
随着工业4.0时代的到来,基于人工智能技术的工人活动监测成为了自动化生产管理中的重要环节。在工业物联网的驱动下,传感器系统的数据来源不断增加,仅靠单一数据源的识别方法已很难满足工人活动监测系统中日益增长的识别率和效率的需求。为了给工人活动监测的智能决策提供高效的数据支撑,可以引入基于工业物联网的多模态数据融合方法。在人工装配线中,工人的错误操作影响自身安全和产线效率,因此,提出了应用于工人活动监测
近年来增强现实、超高清视频传输等新兴移动业务大量涌现,对网络的要求越来越高。移动边缘计算通过在基站部署服务器向移动用户提供云计算能力,有效降低了网络延迟,提高了用户服务质量。但是终端用户的移动性可能导致服务响应时延增加甚至造成服务中断。将服务迁移到离用户更近的位置是一种有效的移动性管理方式,特别是对于时延敏感的业务而言。然而移动边缘网络的服务迁移面临两个关键问题:资源限制下的服务迁移决策问题以及动
随着移动智能设备的普及,利用基于位置的服务产生的用户签到数据对用户出行进行预测已成为一个重要研究内容。如何有效利用用户出行的地理相关性、与其他用户之间的群体特性和多样性特性,对目前最新的基于神经网络模型的用户出行预测方法进行改进,以提高预测准确率,具有重要意义。针对现有基于神经网络模型的用户出行预测方法没有利用地理相关性的问题,提出了基于多特征的移动模型(Multi-Features based
人脸识别技术在日常生活中有很高的实用价值,在娱乐、医学、金融等领域有着广泛的应用。随着深度学习的诞生,人脸识别技术的关键也从传统方法的手工提取特征变成了如何利用卷积神经网络来获得重要特征。为了解决移动端网络模型精度不高和对交叉分辨率图像泛化能力较差等问题,在权衡成本、精度和延迟等尺度的基础上,以Mobile Net v3网络模型作为主干网络开展了研究工作。在对Mobile Net v3模型进行复现
集成电路是信息产业的基石,布图规划和智能拼接是超大规模集成电路设计的两个关键问题。布图规划问题要求将一组具有互连关系的矩形模块不重叠地放置于芯片版图上,最小化包络矩形的面积和模块间的互连线长。智能拼接问题要求在平面内不重叠地放置一组正交多边形模块,最小化包络矩形的面积。二者均属于具有NP难度的组合优化问题。因此,研究求解布图规划问题和智能拼接问题的高效启发式算法具有重要的理论价值和现实意义。针对布