【摘 要】
:
企业简介是企业信息的重要来源之一,大量有价值的企业信息蕴藏在各种企业简介中,如何从企业简介中高效地抽取信息,是自动化构建企业信息管理系统的基础。企业命名实体识别和关系抽取是将机器学习、深度学习等技术应用于企业信息管理领域,准确、快速地实现企业信息的抽取,从而帮助企业快速地构建企业信息知识图谱,辅助企业决策。为此,本文以企业简介文本为基础,通过抽取企业相关实体与关系,实现企业信息抽取,具体工作如下:
论文部分内容阅读
企业简介是企业信息的重要来源之一,大量有价值的企业信息蕴藏在各种企业简介中,如何从企业简介中高效地抽取信息,是自动化构建企业信息管理系统的基础。企业命名实体识别和关系抽取是将机器学习、深度学习等技术应用于企业信息管理领域,准确、快速地实现企业信息的抽取,从而帮助企业快速地构建企业信息知识图谱,辅助企业决策。为此,本文以企业简介文本为基础,通过抽取企业相关实体与关系,实现企业信息抽取,具体工作如下:(1)针对传统的词向量模型无法有效表示企业文本,复杂命名实体识别模型预测消耗大量的计算机资源与时间的问题,基于知识蒸馏原理设计一种命名实体识别模型。为保证获得良好的知识蒸馏效果,以模型结构类似为基准,选取BERT+CRF作为教师模型、Bi GRU+CRF作为学生模型。同时,在学生模型训练过程中,通过在总误差损失中加入软标签误差(学生模型与教师模型的知识误差),在误差反向传播中缩小总误差损失,从而缩小软标签误差,使学生模型拟合教师模型的概率分布,从而达到近似教师模型的预测精度。最后使用学生模型进行命名实体识别,在较短预测时间的情况下,达到高的预测精度。经过实验对比,该方法能够在损失少量预测精度的同时,大幅度提高预测效率。(2)针对企业简介中一个句子包含多个三元组,并且多个三元组之间存在实体重叠的问题,采用一种基于规则的多阶段关系抽取方法。该方法首先使用已有的联合模型SPN4RE完成预选三元组的初始抽取。针对预选三元组存在错误三元组的问题,使用命名实体识别模型识别句子中所有的实体,使用文本分类模型识别句子中所有的关系,进而将预选三元组中可能存在错误实体与错误关系的三元组过滤掉。针对预选三元组存在遗漏三元组的问题,将句子中所有实体与所有关系按照预定义的三元组模式进行三元组补全,并基于预选三元组中出现频率最高的前N类三元组生成筛选模板,对补全后的三元组基于语义相似度进行自动化审核,最后将审核结果与针对预选三元组过滤后的结果进行合并,从而得到出最终的三元组集合。经过实验证明,该方法能够提升联合模型的F1值,且能高效解决企业实际应用中基于大规模知识构建企业知识图谱之前信息抽取的需要。(3)以上述研究为基础,设计了一个企业信息抽取系统。首先,该系统对企业简介进行有效文本识别,识别出企业简介中含有关系的句子。然后对有关系的句子进行实体识别和关系抽取,生成企业信息三元组,利用Neo4j进行企业信息的可视化展示,从而辅助企业从企业简介文本中准确地获取更多的有用知识。
其他文献
传统外部裂纹的检测方法主要包括人眼识别、涡流、射线、电磁、渗透、微波等检测方法,这些方法主要是利用物质的物理性质进行裂纹检测,大部分方法虽发展成熟,但同时也存在明显的不足,如人工检测耗时费力,涡流检测极易受到干扰等。基于深度学习的裂纹检测方法是现在主流的裂纹检测方法,并且已经极大地提升了裂纹检测的效率,但考虑到裂纹主要位于图像的高频部分,所以和对源图像进行处理相比,直接将高频特征信息作为深度学习模
随着“十四五”开局,我国文化旅游产业走向高质量发展道路,传统以景区门票收入为主要经济来源的旅游发展模式不足以应对当下文旅融合发展的需要,开发数字创意产品可以有效为景区发展提供支撑,帮助景区脱离单纯依赖传统资源的限制,实现产业转型。在消费群体主体变更的大环境下,旅游景区所要提供的服务也需要转向文化科技体验多方融合的全域旅游模式。通过数字创意产品促进景区发展的机制研究,得出数字创意产品可以从产业、营销
在故障检测、肿瘤检测、人脸识别等机器学习领域中,数据往往是不平衡的。欠采样方法是解决不平衡数据分类问题的一种重要方法,虽然在处理大规模数据时具有一定优势,但存在信息损耗、易受类重叠、噪声影响等问题。因此,本文将集成学习和马氏选择性抽样应用到欠采样中,提出了两个方法:基于自调节权重的集成方法和基于线性判别分析的马氏欠采样方法。本文主要研究内容和创新点如下:(1)针对欠采样方法存在信息损耗等问题,本文
恒黑、高湿度、恒温以及有限的能量输入使得洞穴成为了世界上最为极端的环境之一,同时也使洞穴生物也成为了遗传学、生物地理学和生态学研究的热点。特别是关于洞穴生物眼睛的退化,是自达尔文《物种起源》一书发表以来,生物学家最为关心的问题之一。近年来,趋光或避光行为在越来越多的无眼洞穴生物中被报道,但关于生活在恒黑环境中的洞穴生物为何要保留感光功能?至今仍然没有统一的解释。目前主要有两种假说:1、中性选择假说
屈家岭时期是新石器时代长河下,一段不可忽视的历史,屈家岭文化独具特色,具有十分重要的研究意义,也是长江中游分布范围最庞大的文化之一,它的影响范围也较广泛。而陶器作为屈家岭文化中出土数量最多的一种器物,它与史前人民的日常生活息息相关,反映出了当时的历史文化和社会思想水平,且陶器形制具有多角度的研究价值。本文对屈家岭陶器形制进行系统性地分析总结,并以此为基础,创作出适用于当今社会的形制创新产品设计,为
近年来,由于城市信息化水平的日益发展,监控摄像头的数量也越来越多,摄像头的广泛使用以及深度学习的飞速发展,为智慧城市的建设打下坚实的基础,也为提高建筑效能、家用机器人、教育、保护环境等领域做出了巨大的贡献。目前人体目标检测的应用场景大部分都在室内,而当前检测算法的研究对象多为室外的行人,室外行人主要在开阔场景下采集,人体大多呈行走,直立状态,图片中的目标大多比较完整。但在室内环境下,由于空间较小,
技术能对司法文书的内容进行压缩总结,生成涵盖裁判过程和事实依据的要点内容,对智慧司法的建设和应对法律信息过载具有重要意义。本文结合司法领域的文本特点,对司法文书研究其抽取式和生成式文本摘要算法。具体研究内容如下:(1)融合篇章结构的多任务学习摘要研究。针对现有抽取式摘要模型难以捕获司法文书区别于普通文本的规范性特征,本文利用文书不同结构对于摘要贡献度的不同提出一种多任务学习模型,以共享参数的方式将
在互联网海量信息的数据中,文本是最主要的表现形式,这些文本信息多以非结构化的形式呈现出来。命名实体识别技术可以从非结构化的文本中识别人名和地名等含有特定意义的实体。命名实体识别的结果可以用于关系抽取、事件抽取、知识图谱构建等下游任务中,其结果的好坏直接影响下游任务的效果。命名实体识别任务根据命名实体是否嵌套分为非嵌套命名实体识别和嵌套命名实体识别,本文对这两个任务进行研究。具体的研究内容如下:(1
随着无人机行业发展的不断成熟,在许多行业都引入无人机航拍获取图像信息。无人机具有操作便捷、不受场地限制的许多优点,但是无人机相机只能获取有限视野的内的图像,难以对场景的实际情况进行反映。因此需要采用图像拼接技术得到航拍图像的全景图。传统的图像拼接算法虽然已经被成熟地集成在商业软件中,但大多基于全局单应性的配准变形方法,难以解决航拍图像拼接过程中的视差问题。并且这些采用单一的特征的图像拼接算法又由于
随着深度神经网络在各领域越来越广泛的应用,学者们也越来越关注深度神经网络的安全性。在21世纪人工智能时代已经到来的环境下,深度神经网络在计算机视觉领域特别是图像分类任务中取得了相当好的效果。然而,有研究表明,在输入样本中添加人眼不可见的微小扰动,能够成功地欺骗深度神经网络,使得DNN分类模型发生误判。这种添加了扰动的样本叫做对抗样本,通过对抗样本使得深度神经网络出错的方法叫做针对深度神经网络的逃逸