【摘 要】
:
面对日益增多的科技文献,研究者们目前缺少一种高效的方式进行文章的快速阅读和知识梳理。知识图谱作为一种结构化知识表示形式,以三元组的形式进行信息组织,目前针对科技文献领域的知识图谱构建研究内容尚少。本文的研究目标是对科技文献进行开放式抽取,即无需额外标注,可直接对原文本进行三元组抽取。相较于其他类型文献,科技文献模块之间的区分度更高,如实验设置,实验结果,模型等,我们将这些模块称为信息单元。根据科技
论文部分内容阅读
面对日益增多的科技文献,研究者们目前缺少一种高效的方式进行文章的快速阅读和知识梳理。知识图谱作为一种结构化知识表示形式,以三元组的形式进行信息组织,目前针对科技文献领域的知识图谱构建研究内容尚少。本文的研究目标是对科技文献进行开放式抽取,即无需额外标注,可直接对原文本进行三元组抽取。相较于其他类型文献,科技文献模块之间的区分度更高,如实验设置,实验结果,模型等,我们将这些模块称为信息单元。根据科技文献的特点,我们定义了关系构件抽取,信息单元抽取和关系抽取三个任务。在关系构件抽取任务和信息单元抽取任务中,我们提出的模型在选定的验证数据集上取得了最好效果(state-of-the-art)。在关系构件抽取任务中,我们提出了基于序列标注的关系构件抽取方法和基于指针网络的关系构件抽取方法,其中基于指针网络的方法具有更低的解码损耗,相对于基于序列标注的方法可以取得更好的效果。针对指针标注稀疏度高的特点,我们提出了一种新的损失函数,可以降低数据集带来的标注误差。在信息单元抽取任务中,我们将该任务分为两个模块,分别为粗粒度信息单元抽取模块和信息单元冲突解决模块。在粗粒度信息单元抽取模块中,我们提出了基于预训练模型的多标签分类模型,融合了关系构件、标题等特征,对所有可能的信息单元进行抽取。在信息单元冲突解决模块,我们提出了基于预训练模型和图神经网络的模型,并针对科技文献的模块化特征提出了一种新的图结构,得到精确的信息单元表示。在关系抽取任务中,我们提出了基于序列标注的关系抽取方法和基于关系分类的关系抽取方法。基于关系分类的方法对在关系构件抽取阶段获得的信息进行枚举得到候选三元组,之后输入到预训练模型中得到关系分类结果。基于序列标注的方法通过枚举二元组的方式进行尾关系构件的抽取,牺牲一部分准确率的前提下,可以数倍提升抽取速度,在长文本中有较好的应用性。此外,我们将负采样和对抗训练方法加入训练,提升了模型的泛化性和表示能力。
其他文献
<正>中共中央总书记习近平在中共二十大报告中指出:“从现在起,中国共产党的中心任务就是团结带领全国各族人民全面建成社会主义现代化强国、实现第二个百年奋斗目标,以中国式现代化全面推进中华民族伟大复兴。”乡村振兴是实现中国式现代化的基础和重要内容。乡村振兴主要内容可以用六个字概括:产业、建设、治理。
写作是作者根据自身积累、思考感悟运用语言文字来表达自身思想感情的过程,是一种极具创造性的脑力劳动。智能写作是指使用人工智能技术为作者提供辅助,从而降低写作门槛,提升作者的写作效率与创作体验,在更短时间内创作更多优秀的文艺作品,最终实现生产力的提高。本文针对嵌套命名实体识别、文本重排序和数字生成这三个智能写作所需的支撑性技术进行了研究。(1)嵌套命名实体识别。嵌套命名实体往往具有丰富的文本内涵,在文
随着社交媒体平台的广泛应用,人们利用社交媒体发布针对舆情事件的相关评论,这些数据代表了民众的所思所想,能够真实快速的反映社会舆论情况,对网络舆情的认知和管控提供重要支持。近年来,自然语言处理相关技术不断进步,文本情感分析任务得到充分关注和发展,为基于社交媒体数据的舆情分析提供了强有力的技术支撑。针对各类舆情事件,利用社交媒体平台的数据,并通过自然语言处理技术进行舆情的分析与预测,具备重大的理论和现
随着深度学习的快速发展,图像生成领域取得了许多令人印象深刻的进展,这使得从标签,文本描述或者语义布局生成具有真实感的图像成为可能。本文所要研究的是从语义分割图生成与之语义对齐的具有真实感的图像,它在内容创作和编辑等方向有着广泛的应用前景。早期的工作直接将语义图作为生成器的编码器端的输入,这种网络设计对于语义信息的利用效率是次优的,空域自适应特征变换的提出缓解了这一问题。它以语义图作为条件输入,预测
在社会生产生活中,往往需要布置大量传感器去采集时序数据,但是由于采集错误、传感器自身功率变化、网络传输异常或人为干预等原因,时序数据中难免会出现一些异常。然而,现有的多维时间序列异常检测算法没有对异常数据的类型进行区分,用户往往会将检测出的异常数据全部清洗掉,导致清洗后的数据丢失大量具有意义的事件和特征。本文将异常数据分为噪声和异常事件两类,分别针对多维时序数据上的异常事件检测问题和噪声修复问题展
随着数字经济发展步伐加快,网络安全、数据安全问题变得更加重要,随时可能影响智慧城市发展,甚至危害社会安全和国家安全。QKD基于量子力学基本特性,能够提供无条件的安全性保证,与经典数据传输网络融合,解决量子保密通信和经典通信协同应用问题。研究了QKD应用的基础原理、关键技术和网络架构,探讨融合方法和创新应用方案,实现智慧城市更安全可靠的数据加密传输。
当人类回答问题时,他们会利用关于空间关系、因果关系、科学事实和社会习俗等的常识知识。这些知识对人类来说微不足道,但仍然超出了当前问答系统的能力范围。与给定上下文篇章的问答任务不同,常识问答任务通常只有单独的问题而没有任何上下文语境,这就需要模型检索到与问题相关的常识知识并利用知识进行逻辑推理才能给出答案。因此如何检索到合适的常识知识以及将这些知识融入模型进行推理以解决常识问答任务成为了最近的研究热
事件时序关系抽取是自动文本分析中的一个关键问题,能够执行此任务的系统在时间感知摘要、事件时间线构建和事件预测等应用中具有重要的意义。时序关系抽取任务要求模型能够正确的捕获并理解自然语言文本中提及的时间信息。当前阶段自然语言处理任务中广泛使用预训练语言模型作为编码器,然而这些模型所采用的自监督预训练任务往往并不能感知文本中与时间有关的信号。本文探究面向篇章理解的事件时序关系抽取技术,即在预训练语言模
航天器是一个复杂的物理系统,直接反映其在轨运行状态的遥测数据具有难以用简单的物理公式描述、包含大量噪声等特点,使得航天器异常检测面临着难以得到精确的遥测数据模型的困难。LSTM模型在遥测数据建模应用中表现出了优秀的非线性拟合和噪声容忍能力,有效的提高了建模的精度。但应用LSTM模型极度依赖超参数配置,严重影响了建模的效果和速度。此外遥测数中包含了大量噪声,也会导致建模精度一定程度的下降。本文围绕遥