基于自监督和聚类技术的实体关系抽取技术研究

来源 :天津大学 | 被引量 : 0次 | 上传用户:qq1036191963
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
无监督关系抽取的方法旨在从未知标签的文本中获得实体间的关系。句子中两个实体之间的关系通常取决于他们的类别属性,而不是由该句子中的两个特定实体确定。实体的类别在粒度和含义上具有很大的灵活性,即使使用手动标记也很难正确地对数据进行标注。有监督关系抽取方法和远程监督的关系抽取方法目前已经相对成熟,然而都需要带有标签的数据集来进行训练。自监督方法旨在通过模型自身生成的标签来进行训练,因而解决了数据集标注的问题。最新的自我监督方法Self ORE仅在实体级别上进行关系提取,没有涉及任何实体类别等属性。本文通过挖掘实体类别并使用类别对的簇作为训练的伪标签来改进Self ORE。本模型通过上下文编码模块、自适应聚类模块和分类模块来进行学习,从而提高了参与训练的伪标签质量。在两个不同的数据集的实验结果表明,本模型相比基线模型都有所提升。本文的主要工作和创新如下:(1)针对目前关系抽取方法只考虑实体本身而较少利用实体类别,并且不能自动获取实体类别的问题,本文提出了面向实体类别挖掘的实体自适应聚类方法。本文利用自适应聚类算法对实体表示进行聚类,得到具有上下文有效信息的实体类别标签。(2)针对目前方法没有充分利用实体类别和实体间关系两个层次上具有交互的促进作用的问题,本文提出了基于聚类技术和层次化自监督框架的关系抽取方法。此框架将上下文关系模块、面向实体类别挖掘的实体自适应聚类、面向关系类别挖掘的实体类别对的自适应聚类和基于聚类生成的伪标签指导的分类模块以线性方式组合起来进行联合优化。在实验中,在两个真实的语料库上的结果表明,本模型相比基线模型可以在一定程度上提升关系抽取的性能。
其他文献
语言建模在自然语言处理和与信息检索相关的任务中至关重要。在统计语言模型出现之后,有人提出了量子语言模型(QLM),在相同的概率空间中统一单个词和复合词,而无需以指数的方式扩展词表空间。尽管量子语言模型在专项检索中取得了良好的性能,但它仍然有两个主要局限性:(1)量子语言模型无法利用监督信息,这主要是由于密度矩阵的迭代和不可微估计。(2)量子语言模型假定单词或单词相关性的可交换性,而忽略单词的顺序或
学位
“十四五”规划纲要指出,要加快发展智慧农业,推进农业生产经营和管理服务数字化改造,全面推进乡村振兴。随着快递配送业务系统的不断完善,电商覆盖面不断扩大,线上销售更加普及。因此,充分利用电子商务平台优势深化农产品电商发展,成为农民专业合作社(以下称“合作社”)、家庭农场等新型农业经营主体助力乡村振兴、促进农业数字化发展的重要突破口。
期刊
舆论场是舆情存在的基本形式,对舆论场建模同时预测其信息传播规模,对于新发重大风险事件的监测、预警和应对具有重要的研究意义。然而,在计算机科学领域尚未有一个明确的舆论场概念界定,且传统的信息传播模型不能有效提取舆论场信息传播的潜在特征,导致预测结果不够准确。因此,本文基于本体并融合多元空间要素对舆论场建立概念模型,同时研究其信息传播预测问题,具体工作如下:首先,提出了基于“地-事-人-行为”的多层异
学位
时代不停向前发展,技术也随之不断进步,如今移动互联网已经越来越普及,现代生活正在逐步进入人工智能时代。互联网成为了大众群体无论是日常休闲还是工作学习时发表自身看法和建议的重要平台,因此在每个平台上,各行各业中都产生了大量的文本信息,而公众的情绪就蕴藏在这些观点和态度之中,同时这些文本情绪可能会对事件的未来发展趋势起到一定程度的影响。情感分析旨在判断文档、句子级别上各种类型文本的情感极性,不论是在理
学位
近年来科学文献分析已经成为热门研究问题之一。通过对科学文献进行构建复杂网络分析研究,挖掘科学文献的内在规律可以熟悉前沿科研动态,获取科学领域内重要科研人员,掌握重点科学领域的研究现状和发展趋势。这是科学文献情报分析的重点,同时也是情报分析领域的重要问题之一。但是传统的科学文献分析方法大多停留在宏观问题上,如仅仅关注影响评估等工作,而对科学文献中科研人员的主题合作,以及某领域内研究主题演化等内容缺乏
学位
背景:髓内钉置入内固定是治疗股骨干骨折的经典方案,其远端瞄准架被广泛应用于远端锁钉的置入,提高了远端锁钉置入的准确率,但其失败率仍然不容忽视。研究出一种可实现远端锁钉快速且精准锁钉的新技术,减少徒手锁钉时的X射线放射性损伤,是当务之急。目的:比较占位压杆技术和徒手锁钉技术在股骨髓内钉远端锁钉置入中的效果。方法:建立发生压杆偏移不能准确置入远端锁钉的股骨模型骨8个,分2组处理:占位压杆组(n=4)采
期刊
一条完整的漏洞描述应当具备六种关键信息:漏洞类型、根本原因、受影响的产品、影响、攻击者类型和攻击载体。这种漏洞信息的组合方式可以方便软件维护人员有效地管理,缓解和预防日益增多的软件漏洞。然而,在通用漏洞数据库(CVE)中存在着较为严重的关键信息缺失问题。关键信息的缺失会导致研究人员无法准确的分析漏洞的状态和特征,致使许多基于漏洞报告进行的研究在结果上产生较大的误差。尽管现有的漏洞报告正在随着漏洞分
学位
知识问答方法允许用户以输入自然语言问句的方式访问知识库中的内容,它帮助用户以一种更加自然的方式获取知识库中内容。问答系统要为海量用户提供服务,因此它需要具备高效处理批量问句的能力。并行是高效处理批量问句的一种简单但有效的方法。然而,并行的批量知识问答方法面临如下三个挑战:首先,批量问句之间可能包含子问句层次上的公共语义,而公共语义的冗余处理会导致时间代价的巨大浪费。复杂问句与简单问句处理时间代价相
学位
在自然语言处理领域,随着深度学习网络技术的广泛应用,越来越多的复杂模型声称在规范良好的数据集上有着更好的性能表现,但是随之而来的是对深度学习网络本身可解释性的担忧,犹如萦绕在科研工作者头上的定时炸弹。最近部分研究者受到量子理论的启发,在自然语言处理领域提出了一种基于量子理论数学框架的语言模型,通过将不同的单词表示为基本量子态,并使用密度矩阵建模包含若干单词的句子,构建一个量子混合系统,以期表示人类
学位
Transformer模型已经被广泛地应用在许多自然处理任务中,其核心组件是带刻度的点积注意力机制(词级注意力)。该注意力机制是一种单词级别的设计,关注的是任意单词对之间的相似性,因此它的复杂度在序列长度上是二次级的,这也大大限制了其在长序列任务上的应用。为了获得一个更加轻量高效的注意力机制,本文提出了两种新的注意力机制。一是本文提出了维度注意力机制,并在此基础上开发了一种新的语言建模方法,名为T
学位